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机 器 学 习 可 用 来 处 理由 用 户 产生 的 、 数 量 不 断 增 长 的 Web 数据 。 


本 和 











要 讲解 如 何 用 Python if. Django ERF A — 3k Web 商业 应 用 ， 以 及 如 何 用 一 
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现成 的 库 和 工具 (sklearn、scipy、nltk 和 Django 等 ) ABS RU 4) jr MA PTE RER f FH AY ad 
本 书 不 仅 涉及 机 器 学 习 的 核心 概念 ， 还 介绍 了 如 何 将 数据 部 署 到 用 Django f 
MH, LEE Web、 文 档 和 服务 器 端 数据 的 挖掘 和 推荐 引擎 的 搭建 方法 。 





本 和 
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EE 架 开 发 的 Web 


适合 有 志 于 成 为 或 刚刚 成 为 数据 科学 家 的 读者 学 习 ， 也 适合 对 机 器 学 习 、Web 数 
据 挖掘 等 技术 实践 感 兴 趣 的 读者 参考 阅读 。 
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机 器 学 习 是 什么 ? 2016 5E, A516 BA m. 9 
机 器 学 习 下 个 定义 。 人 们 对 机 器 学 习 是 什么 ， 
带 来 的 潜在 影响 以 及 它 日 后 对 





跟 其 他 陡 升 为 显 























Th 
的 ， 





制 算法 ， 实现 习 
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我 们 有 何 种 意义 之 前 
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学 的 学 科 类 似 ， 机 器 学 习 3 
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不 是 新 生 事物 。 


























输出 只 是 输入 变量 














外 部 因 
仅仅 是 输入 变量 的 函数 。 动 态 算法 是 机 器 学 习 的 支柱 Mo 
一 组 规则 ， 








以 改善 之 














术 已 有 多 个 年 头 ， 但 





融 行 业 














科学 家 、 开 发 人 员 和 工程 师 研 究 和 使 
直到 今天 ， 随 着 机 器 











自动 化 。 参 数 
的 函数 。 还 有 一 种 情况 ， 算 法 
素 〈 最 常见 的 是 同一 算法 先前 的 输出 ) 的 函数 ， 这 种 
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后 的 输出 。 
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| 模糊 逻辑 、 
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机 器 学 习 。 
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生 了 什么 。 
的 工 
1 器 接管 了 生产 过 程 
定 。 与 之 相应 的 是 ， 产 品质 量 
力 劳 动 。 RITKE H 


机 器 学 习 的 影响 很 容易 理 
年 ， 机 器 学 习 将 给 我 们 带 来 什么 ， 


这 门 学 科 才 流行 起 来 ， 基 本 上 来 i 


学 习 应 





离开 实验 室 ， 


























解 ， 





F, 


它 将 给 我 们 的 社 
我 能 想到 的 最 佳 描述 方式 是 : 


需要 重复 执行 相 





固定 的 算法 叫 作 静态 算法 ， 其 输 
的 参数 是 动态 变化 的 ， 算 法 
法 叫 作 动态 算法 ， 
前 迭代 生成 的 数据 中 ， 学 习 到 


， 还 是 接受 采访 ， 很 多 人 都 让 我 给 
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要 求 我 们 先 给 出 其 定 


区 多 年 来 一 直 致 力 
i 出 是 可 预测 
的 输出 是 
其 输出 不 


科学 社 


























神经 网 络 和 其 他 类 型 的 机 器 学 习 技 
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进入 市 场 营销 、 销 售 和 4 








同 运算 的 活动 都 可 以 受益 于 














会 带 来 巨大 六 

















Fie 





资 ， 他 们 往往 要 
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的 重要 步骤 ， 


蒸汽 机 发 明之 前 ， 很 多 人 从 事 高 度 重 复 性 的 体力 工作 。 为 了 赚 取 少 条 





着 生命 危险 或 以 牺牲 




















的 提升 和 








责任 委托 给 由 我 们 设计 和 发 明 的 工具 ，; 


这 带 来 了 产量 


健康 为 代价 。 
ERI 





工业 革命 





并 且 产 出 
新 工种 的 出 现 ， 操 控 机 器 这 类 新 兴 的 工作 取代 了 体 


h 击 。 关 于 下 一 个 5 到 10 
不 妨 回想 工业 革命 时 期 发 
时 不 能 再 少 
出 现 后 ， 社 会 得 以 发 展 ， 
的 可 预测 性 更 强 和 更 稳 
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这 在 人 类 历史 上 可 是 第 一 次 。 
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机 器 学 习 ; 
作 交 给 机 

















全 和 入 








法 。 数 据 处 理 人 员 将 不 

















因此 ， 运 





的 执行 速度 ; 


和 会 变 得 更 | 
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以 相同 的 方式 ， 改 变 执行 数据 运算 的 方式 ， 减 少 人 工 干预 的 需要 ， 将 优化 的 工 
直接 控制 数据 ， 而 是 通过 控制 算法 间接 控制 数据 。 
Du, BED AY 














各 能 控制 规模 























少 ， 从 而 结果 的 稳定 性 更 高 也 
爱 蓝 和 习 恶 它 的 人 都 有 。 














习 方 法 要 有 效 ， 需 要 大 量 的 迭代 ， 
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数据 可 是 我 们 的 个 人 信息 ”。 


事实 上 ， 机 器 学 习作 为 一 种 工具 得 以 迅速 发 展 ， 其 主 
支持 的 效率 。 为 顾客 提供 个 性 化 服务 ， 





失望 ， 需 要 对 顾客 有 着 深入 的 理解 。 























例如 ， 就 


场 营销 而 言 ， 如 今 市 场 营销 人 员 开 始 考虑 位 置 、 








的 网 站 、 天 和 气 状况 等 信息 《〈 仅 举 几 个 例子 ) 来 决定 公司 是 否 向 一 组 特定 顾客 展示 广 
电视 或 报纸 这 样 无 法 追 














sie 


Hes 


DR 











市 场 营 销 人 员 和 希望 知 
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理 分 配 预算 ， 以 充分 
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j 他 们 手中 的 资源 。 




















使 用 合 到 











机 器 学 习 既 吸引 人 又 充满 挑战 ， 
能 够 基于 这 些 数据 以 可 
种 方式 能 实现 这 样 的 人 
Andrea Isoni 的 这 本 书 朝 这 个 世界 迈 出 了 一 步 ; 








构 化 数据 ， 并 
我 还 没有 看 到 
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能 从 中 看 到 








服务 。 


如 果 你 想 为 日 后 的 职业 生涯 提前 做 好 准备 ， 该 





j 机 器 学 习 技术 实现 的 几 个 应 
问 用 机 器 学 习 技 术 创 建 的 个 性 化 服务 网 站 ， 顾 客 和 





[可 预测 性 更 强 
爱 募 者 称赞 机 器 学 习 为 他 们 和 4 
比 需要 大 量 数据 。 而 通常 来 讲 ， 我 们 “ 喂 给 ” 


促使 他 们 购买 1 


的 媒体 传播 营销 
谁 点 击 和 购买 了 他 们 商品 等 一 切 信息 ， 他 们 好 优化 创意 和 投入 ， 








更 大 的 数据 集 ， 错 误 将 会 减 
大 影响 的 事物 一 样 ， 
ER TOR EA, Meare, BL 
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要 应 用 在 于 提升 市 场 营销 和 顾客 


i 不 只 是 浏览 ， 或 让 他 们 高 兴 而 不 是 






































设备 、 购 买 历 史 、 访 问 过 
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这 就 要 求 提供 前 所 未 有 的 高 度 个 性 化 服务 ， 


， 可 以 让 顾客 感到 他 们 是 受 尊重 的 个 体 而 不 只 是 某 一 社会 人 口 学 分 组 的 一 部 分 。 
日 无疑 下 一 个 十 年 的 说 家 ， 将 会 是 那些 能 够 开 











E 解 非 结 


扩展 的 方式 做 出 决策 的 公司 或 个 人 : 除了 机 器 学 习 ， 








读 它 就 好 像 是 向 下 窥视 兔子 的 洞穴 ,你 
日， 作者 将 机 器 学 习 技术 整合 到 Web 应 用 中 。 访 
上 从 中 体验 到 为 他 们 个 人 提供 的 优化 过 的 














是 你 必须 要 读 的 ， 下 一 个 十 年 跟 数 据 





打交道 的 任何 人 若 想 成 功 的话 ， 都 需要 熟练 掌握 这 些 技 术 。 





O 言 外 之 意 ， 隐 私 受 到 威胁 。 一 一 译 者 注 





Davide Cervellin, @ingdave 


eBay 公司 EU Analytics 部 门 负责 人 


译 者 序 



































20 年 前 ，IBM 研制 的 深蓝 计算 机 勉强 战胜 俄罗斯 棋 王 卡 斯 帕 罗 夫 ， 它 在 体力 上 的 优势 
似乎 比 智力 方面 更 明显 。 但 刚刚 过 去 的 这 一 年 ， 谷 歌 的 AlphaGo 计算 机 程序 打败 了 围棋 高 
手 李 世 石 ， 它 的 升级 版 Master 威力 更 是 了 得 ,横扫 中 日 韩 高 手 ,， 它 擅长 走 快 棋 ， 招 法 狠毒 ， 
令 人 类 高 手 胆 颤 。 由 此 可 见 ， 近 年 来 ， 人 工 智 能 技术 随 着 硬件 、 大 数据 、 机 器 学 习 技术 的 
发 展 ， 取 得 了 长 足 的 进步 。 

机 器 学 习 技术 作为 人 工 智 能 的 一 个 子 领域 ， 研 究 和 应 用 热潮 不 减 ， 研 讨 会 、 学 习 班 和 
创业 项 目 层 出 不 穷 ; 国内 学 者 入 选 AAAI Fellow; 该 领域 的 书籍 一 印 再 印 ， 人 脸 识 别 、 自 
动 驾驶 、 机 器 翻译 、 智 能 客服 、 物 流 无 人 机 和 家 居 、 医 疗 、 教 育 机 器 人 等 各 种 应 用 不 断 推 
向 市 场 。 从 以 上 种 种 表现 来 看 ， 我 们 处 在 人 工 智能 时 代 的 风口 和 前 夕 。 作 为 该 领域 的 从 业 
者 ,我 们 不 能 满足 于 看 热 曾 ， 应 努力 掌握 背后 的 核心 技术 一 一 机 嚣 学习， 力求 弄 懂 该 技术 ， 
并 努力 探索 其 他 可 能 的 实现 人 工 智能 的 方法 ， 把 人 类 智慧 的 边界 向 前 推进 一 步 。 更 令 人 鼓 
舞 的 是 ， 大 数据 产业 发 展 已 上 升 到 国家 战略 层面 ， 我 国 要 实现 从 数据 大 国 向 数据 强国 的 转 
变 ， 需 要 一 批 掌握 了 数据 挖掘 、 机 器 学 习 等 相关 技术 的 人 才 。 

本 书 讲解 的 是 商业 网 站 数据 分 析 和 挖掘 所 用 到 的 机 器 学 习 理论 和 技术 。 作 者 先 介绍 了 
机 器 学 习 的 基本 概念 、Python 机 器 学 习 工 具 栈 (NumPy、pandas 和 matplotlib 等 )， 接 着 分 
别 讲解 了 无 监督 和 有 监督 机 器 学 习 理 论 ， 每 种 方法 都 给 出 形式 化 描述 ， 其 间 用 到 了 大 量 概 
率 统计 、 线 性 代数 等 数学 知识 ， 比 如 最 小 二 乘 、 相 关 性 、 贝 叶 斯 概率 和 奇异 值 分 解 等 。 作 
者 的 统计 学 背景 在 这 一 点 上 得 到 了 很 好 的 体现 。 这 部 分 数学 知识 能 够 较 好 地 满足 有 志 于 深 
入 学 习 的 读者 的 需要 ， 水 平 高 的 读者 可 以 从 中 感受 机 器 学 习 模型 的 数学 魅力 。 介 绍 完 这 两 
大 类 机 器 学 习 理 论 , 作者 又 从 Web 结构 和 内 容 两 个 方面 讲解 了 Web 挖掘 技术 ; 介绍 了 信息 










































































































































































































































































































































































































































































译 者 序 2 


检索 模型 、 主 题 抽 取 模 型 LDA。 讲 解 完 机 器 学 习 理论 和 技术 之 后 ， 作 者 引入 了 为 Web 开发 
完美 主义 者 准备 的 Django 框架 ， 让 昔日 在 幕后 默默 奉献 的 数据 分 析 高 手 有 机 会 走 到 台 前 ， 
自己 研制 的 算法 驱动 一 款 Web 产品 。 作 者 带领 我 们 利用 前 面 讲解 的 算法 和 挖掘 技术 ， 用 
Django 框架 搭建 推荐 系统 和 影评 分 析 系 统 。 学 到 这 里 ， 你 会 不 由 地 感叹 Python 真是 全 栈 工 
程 师 的 好 朋友 。 数 据 分 析 师 用 Python 就 能 从 头 到 尾 打造 一 笋 智能 Web 产品 ， 可 见 Python 
的 应 用 范围 之 广 。 年 初 , Facebook 更 是 开源 了 PyTorch 深度 学 习 框 架 , 进一步 巩固 了 Python 
在 机 器 学 习 领 域 的 地 位 。 

当然 ， 我 们 最 终 开 发 出 的 产品 还 比较 初级 ， 离 最 终 面 向 用 户 的 产品 在 用 户 体验 上 还 有 
较 大 差距 ， 但 稍 加 打磨 至 少 可 作为 一 个 最 小 可 行 性 产品 (MVP) 先行 投入 市 场 ， 收 集 用 户 
反馈 ， 日 后 再 图 大 的 改进 。 此 外 ， 限 于 篇 幅 ， 作 者 也 没有 讲 怎么 将 系统 部 署 到 生产 服务 器 。 
感 兴 趣 的 读者 可 以 试 试 Heroku、SAE 等 云 应 用 平台 ， 也 可 以 尝试 用 Apache、mod_wsgi 
自己 的 计算 机 上 搭 服务 器 。 你 可 能 还 需要 申请 一 个 域名 。 这 样 ， 你 就 可 以 向 朋友 推荐 自 
开发 的 产品 了 ， 你 具备 了 向 全 球 用 户 提供 智能 Web 产品 的 能 力 ! E, Mit, ERKA, X 
我 刚刚 上 线 的 Web 推荐 系统 ! 用 机 器 学 习 算 法 驱动 的 哦 ! 

感谢 人 民 邮 电 出 版 社 的 陈 喜 康 编辑 等 为 本 书 编校 、 出 版 辛勤 付出 的 各 位 朋友 。 读 者 罗 
导 运 行 了 第 1 章 的 代码 ， 并 指出 了 原 书 及 译 者 注 中 的 几 处 问题 。 师 妹 岩 乔 阅 读 了 第 2 章 译 
文 ， 她 本 人 也 是 一 本 Python 图 书 的 译 者 。 泰 安 读者 陈 新 光 阅 读 了 第 6 章 译 文 ， 他 正 努 力学 
习 数 据 科学 知识 ， 祝 他 学 有 所 成 。 翻 译 过程 中 ， 我 向 北京 大 学 冷 含 莹 、 东 京 大 学 范 超 、 上 
海 健康 学 院 姜 萌 等 朋友 请 教 过 问题 ;我 旁听 了 北大 的 统计 学 基础 、 随 机 过 程 等 课程 ， 了 解 
了 很 多 统计 学 概念 ， 参 考 了 市 面 上 现 有 的 多 本 著作 ， 其 中 包括 大 名 易 易 的 西瓜 书 ， 查 询 了 
CSDN 等 网 站 的 文章 ， 在 此 一 并 表示 衷心 的 感谢 。 感 谢 西 安 工业 大 学 的 李刚 老师 、 重 庆 大 
学 杨 刘 洋 同 学 等 读者 对 翻译 工作 的 支持 。 最 后 ， 感 谢 我 的 家 人 ， 我 翻译 图 书 的 时 间 是 用 他 
们 的 圣 勤 劳动 换 来 的 ， 因 此 也 更 加 宝贵 。 

本 人 学 识 有 限 ， 且 时 间 仓 促 ， 书 中 翻译 错误 、 不 当 和 琉 漏 之 处 在 所 难免 ， 敬 请 读者 批 
评 指正 。 
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2017 年 2 月 

















数据 科学 ， 尤 其 是 机 器 学 习 ， 成 为 当下 科技 商业 
来 处 到 
开发 一 款 Web 商业 应 
等 ) 处 理 和 分 析 ( 通 












































本 书 主要 内 容 


用 Python 处 至 


第 2 章 ， 


























无 监督 机 器 学 习 , Ul 





], ERA 
过 机 器 学 习 技 术 ) 应 月 
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域 人 们 热 议 的 议 








用 户 产生 的 、 数 量 在 不 断 增长 的 数据 。 本 书 将 讲 
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第 3 章 ， 有 监督 机 器 学 习 ，i 


第 4 章 ，Web 挖 
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中 中 抽取 对 


FE 要 特 得 
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第 6 章 ， 开 始 Django 之 旅 ， 介 绍 






















































































解 预 测 数据 集 标 签 最 常 


HRA, Die Web 数据 的 组 织 、 分 析 和 从 中 提取 信 ， 


























第 13$, Python 机 器 学 习 实 践 入 门 ， 讨 论 机 器 学 习 的 主要 概念 以 及 数据 科学 专业 人 了 
数据 所 使 用 的 几 个 
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EC 


AY 


Dil 














。 这 类 技术 可 用 








Python 语言 、Django 框架 
坚 如 何 用 一 些 现 成 的 库 Csklearn, scipy. NLTK 和 Django 
生成 或 使 用 的 数据 。 
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j 到 的 算法 。 














j 的 有 监督 机 器 学 习 旬 














法 。 
电 的 主要 技术 。 




















当今 商业 领域 所 使 用 的 几 
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再 次 通过 一 个 实例 , 使 











"B7 3, 电影 推荐 系统 Web 应 用 ， 将 
j 户 推荐 电影 的 应 用 。 
第 8 章 ， 影 评 情感 分 析 应 用 ， 
倾向 和 相关 性 。 
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荐 系统 。 








A Web 应 用 所 用 到 的 Django AY SF 
的 机 器 学 习 术 














F 述 的 知识 ,分析 在 线 影评 的 情 





FE 要 功能 和 特点 。 


噬 念 付 诸 实践 ， 动 手 实 现 为 Web 
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本 书 的 阅读 前 提 











读者 应 该 准备 一 台 计 算 机 ， 装 好 Python 2.7, 能 够 运行 (和 修改 ) 书 中 各 章 讲解 的 代码 。 


本 书 的 目标 读者 
































任何 有 一 定编 程 经 验 (Python ) 和 统计 学 背景 ， 对 机 器 学 习 感 兴趣 和 /或 希望 从 事 数据 
科学 职业 的 读者 均 可 从 本 书 受益 。 


排版 约定 





















































本 书 使 用 不 同 的 文本 样式 来 区 分 不 同类 别 的 内 容 。 以 下 是 常用 样式 及 其 用 途 说 明 。 
正文 中 的 代码 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 名 、 文 件 扩展 名 、 路 径 名 、URL 地 址 、 
] 户 输入 的 内 容 和 Twitter 用 户 名 显示 方式 如 下 : 

“在 终端 输入 以 下 命令 ， 安 装 Django 这 个 库 : sudo pip install django. " 


代码 块 样式 如 下 : 










































































INSTALLED APPS = ( 





'rest framework', 
'rest framework swagger', 
'nameapp', 


) 





所 有 的 命令 行 输入 或 输出 使 用 下 面 这 种 样式 : 





python manage.py migrate 





新 的 术语 和 重要 的 词语 使 用 黑体 。 出 现在 屏幕 上 的 词语 ， 例 如 菜单 或 对 话 框 里 ， 样 式 如 下 
“如 你 所 见 ， 页 面 上 有 两 个 输入 框 ， 输 入 姓名 和 邮箱 后 ， 单 击 “ 添 加 ， 将 其 添加 到 数据 库 ”。 


















































ks 此 图 标 表示 警告 或 重要 信息 。 ] 


M 
[ Q 此 图 标 表示 提示 或 技巧 ] 


读者 反馈 





我 们 热忱 地 欢迎 读者 朋友 给 予 我 们 反馈 ， 告诉 我 们 你 对 于 这 本 书 的 所 思 所 想 你 喜 
欢 或 是 不 喜欢 哪些 内 容 。 大 家 的 反馈 对 我 们 来 说 至 关 重 要 ， 将 帮助 我 们 确定 到 底 哪些 内 容 
是 读者 真正 需要 的 。 
如 果 你 有 一 般 性 建议 的 话 ， 请 发 邮件 至 feedback@packtpub.com， 请 在 邮件 主题 中 写 清 
书 的 名 称 。 
如 果 你 是 某 一 方面 的 专家 ， 对 某 个 主题 特别 感 兴趣 ， 有 意向 自己 或 是 与 别人 合作 写 
本 书 ， 请 到 www.packtpub.com/authors 查阅 我 们 为 作者 准备 的 帮助 文档 。 
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为 自己 拥有 一 本 Packt 出 版 的 书 而 自豪 吧 ! 为 了 让 你 的 书 物 有 所 值 ， 我 们 还 为 你 准备 
了 以 下 内 容 。 


下 载 示 例 代码 
























































如 果 你 是 从 wwwpacktpub.com 网 站 购买 的 图 书 ， 用 自己 的 账号 登录 后 ， 可 以 下 载 所 有 已 购 
图 书 的 示例 代码 。 如 果 你 是 从 其 他 地 方 购买 的 ， 请 访问 http:/www.packtpub.com/support 网 站 并 
注册 ， 我 们 会 用 邮件 把 代码 文件 直接 发 给 你 。 也 可 以 访问 www.epubit.com.cn 来 下 载 示例 代码 。 


代码 文件 下 载 步 又 如 下 。 
1. 用 邮箱 和 密码 登录 或 注册 我 们 的 网 站 。 

2 鼠标 移动 到 页 面 顶 部 的 SUPPORT 选项 卡 下 。 
3. 单 击 Code Downloads & Errata. 

4. 在 搜索 框 Search 中 输入 书 名 。 

5. 选择 你 要 下 载 代 码 文件 的 图 书 。 
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4 me 


ul 











6. 从 下 拉 菜 单 中 选择 你 从 何 处 购买 该 书 。 
7. 单 击 Code Download 下 载 代码 文件 。 









































你 还 可 以 在 Packt Publishing 网 站 图 书 详情 页 ， 单 击 Code Files 按钮 下 载 代码 文件 。 在 
Search 搜索 框 中 输入 书 名 进行 搜索 可 找到 该 书 的 图 书 详情 页 。 请 注意 你 需要 登录 网 站 。 
























































代码 下 载 下 来 之 后 ， 请 确保 用 以 下 解压 工具 的 最 新 版 本 进行 解压 或 抽取 文件 : 














e Windows 用 户 : WinRAR / 7-Zip: 

















e Mac 用 户 : Zipeg /iZip / UnRarX; 




















e Linux 用 户 : 7-Zip /PeaZip。 























本 书 的 代码 包 在 GitHub 上 也 存储 了 一 份 : https://github.com/PacktPublishing/Machine- 
Learning-for-the-Web 。 我 们 很 多 其 他 图 书 和 视频 的 代码 包 也 存储 到 了 GitHub 上 : 








https://github.com/PacktPublishing/。 将 它们 检 出 到 本 地 。 


下 载 本 书 配套 PDF 文件 











我 们 还 为 你 准备 了 一 个 PDF 文件 ， 该 文件 包含 书 中 的 所 有 屏幕 截图 / 图 表 。 这 些 彩 图 能 弥 
补 书 中 黑白 图 像 的 不 足 ， 有 助 于 你 理解 本 书 内 容 。 该 文件 的 下 载 地 址 为 http:/www.packtpub.comy/ 
sites/default/files/downloads/MachineLearningfortheWeb ColorImages.pdf. 












































勘误 表 



































即使 我 们 竭尽 所 能 来 保证 图 书 内 容 的 正确 性 ， 错 误 也 在 所 



































一 本 书 中 发 现 错误 -可 能 是 在 文本 或 代码 中 
































任免 。 如 果 你 在 我 们 出 版 的 任何 
倘若 你 能 告诉 我 们 ， 我 们 将 会 非常 感激 。 你 


的 善举 足以 减少 其 他 读者 在 阅读 出 错位 置 时 的 纠结 和 不 快 , 帮助 我 们 在 后 续 版 本 中 更 正 错误 。 如 


果 你 发 现任 何 错误 ， 请 访问 http://www.packtpub.com/submit-errata, EF FAA FE, À 














Ait “Errata 






































Submission Form” 链 接 ， 输 入 错误 之 处 的 具体 信息 。 你 提交 的 错误 得 到 验证 后 ， 我 们 就 会 接受 






































你 的 建议 ， 该 处 错误 信息 将 会 上 传 到 我 们 网 站 或 是 添加 到 已 有 
访问 https://www.packtpub.com/books/content/support, £4 
书 已 有 的 勘误 信息 。 这 部 分 信息 会 在 Errata 部 分 显示 。 


版 权 保护 






































勒 误 表 的 相应 位 置 。 
搜索 框 中 输入 书 名 ， 可 查看 该 











所 有 媒体 在 互联 网 上 都 面临 的 一 个 问题 就 是 侵权 。 对 Packt 来 说 ， 我 们 严格 保护 我 们 
































SO AE TF SU Heh m, Y 
FE， 我 们 才能 继续 以 优 















































的 版 权 和 许可 。 如 果 你 在 网 上 发 现 针对 我 们 4 


们 地 址 或 网 站 名 称 ， 以 便 我 们 进行 补救 。 
青 将 盗版 书籍 的 网 址 发 送 到 copyright@packtpub.com。 
么 做 ， 就 是 在 保护 我 们 的 作者 ， 保 护 我 们 ， 只 有 这 术 
了 箱 联 系 我 们 ， 我 











的 读者 。 























ie 
如 果 你 能 这 
质 内 容 回馈 像 你 这 样 热心 
问题 
何方 面 的 问题 ， 都 可 以 通过 questions@packtpub.com 











UM ATA A 
们 也 将 尽 最 大 努力 来 帮 你 答疑 解 惑 。 


作者 简介 
































Andrea Isoni 博士 是 一 名 数据 科学 家 、 物 理学 家 ， 他 在 软件 开发 领域 有 着 丰富 的 经 验 ， 
在 机 器 学 习 算 法 和 技术 方面 ， 拥 有 广博 的 知识 。 此 外 ， 他 还 有 多 种 语言 的 使 用 经 验 ， 如 
Python, C/C++, Java. JavaScript. C£. SQL. HTML. bH it Hadoop 框架 。 


译 者 简介 


杜 春晓 ， 英 语 语言 文学 学 士 ， 软 件 工程 硕士 。 其 他 译 兽 有 《Python 数据 挖掘 入 门 与 实 
Be) (Python 数据 分 析 实 战 》 和 《电子 达 人 一 一 我 的 第 一 本 Raspberry Pi 入 门 手 册 》 等 。 新 
IRE: @ 宜 "E. 









































































































































Chetan Khatri 是 一 名 数据 科学 石 





Technologies Pvt. Ltd 公司 担任 数据 和 机 器 学 习 方 面 的 首席 工程 师 ， 主 导 在 游戏 和 电信 订阅 
业务 从 事 数 据 科 学 实践 。 他 曾 在 一 家 顶尖 的 数据 公司 和 印度 四 大 公司 其 中 一 家 工作 ， 管 理 
数据 科学 实践 平台 和 后 者 的 资源 团队 。 在 这 之 前 ， 






































技术 审 稿 人 简介 











究 员 , 他 共有 4 年 半 的 研究 和 开发 经 验 。 他 在 Nazara 













































































他 曾 供 职 于 R & D Lab 和 Eccella 





Corporation。 他 拥有 印度 喀 奇 大 学 (KSKV Kachchh University) 的 计算 机 科学 硕士 学 位 ， 
















































































辅修 数据 科学 ， 是 该 学 校 的 金牌 得 主 。 


他 积极 以 多 种 方式 为 社会 做 贡献 ， 其 中 包括 为 大 二 学 生 做 讲座 ， 在 学 术 以 及 其 他 各 种 
会 议 上 介绍 数据 科学 相关 知识 ， 还 援助 社区 一 个 数据 平台 
两 方面 均 有 着 相关 的 专业 知识 。 他 喜欢 参加 数据 科学 马拉松 比赛 。 他 参与 发 起 了 Python tt 
























































。 他 在 学 术 研 究 和 行业 最 佳 实践 





























[X —— PyKutch. 他 目前 
里 数据 。 
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E 在 探 完 深层 神经 网 络 和 增强 学 习 ， 学 习 使 用 并 行 和 分 布 式 计算 管 







































































感谢 喀 奇 大 学 计算 机 科学 系 主 任 Devji Chhanga 教授 , 感谢 他 引领 我 走 上 数据 科学 研究 
的 正确 道路 ， 并 给 予 宝贵 的 指导 意见 。 





同样 把 感谢 送 给 我 亲爱 的 家 人 。 


Pavan Kumar Kolluru 是 一 名 交叉 学 科 工程 师 ， 他 是 大 数据 、 数 字 图 像 和 处 理 、 遥 感 
(高 光谱 数据 和 图 像 ) 方面 的 专家 ， 精 通 Python、R 和 MATLAB 编程 。 他 的 研究 重点 在 于 












































如 何 用 机 器 学 习 技 术 、 编 制 算 法 处 理 大 数据 。 















































方面 的 难度 。 


























作为 一 名 数据 《图 像 和 信和 号) 处 理 方面 的 专业 人 士 和 
数据 ， 该 项 工作 使 得 他 在 数据 处 理 、 信 息 




































































他 目前 正在 探索 如 何 找到 不 同学 科 之 间 的 联系 ， 以 降低 数据 处 理 过 程 在 计算 和 自动 化 














老师 ， 他 一 直 在 处 理 多 / 高 光谱 



































| 取 和 分 割 方面 积累 了 很 多 专业 知识 。 他 用 到 的 


2 技术 审 稿 人 简介 








高 级 处 理 技术 有 OOA、 随 机 集 和 马尔 可 夫 随 机 场 。 
作为 一 名 程序 员 和 教师 , 他 专注 于 Python 和 R 语言 , 他 执教 于 企业 和 教育 行业 的 兄弟 








会 。 他 培训 过 多 批 学 员 ， 教 他 们 使 用 Python 和 

作为 一 名 机 器 学 习 研究 员 / 教练 ,人 
归 以 及 数据 降 维 方面 的 专家 。 他 曾 
算法 ， 作 为 他 理科 硕 了 
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co 

















阶段 的 研究 成 果 ， 该 算法 将 数据 


套 大 数据 《 









































' 包 信号 、 图 像 和 数据 分 析 等 )。 


是 分 类 (有 监督 和 无 监督 )、 建 模 和 数据 理解 、 


回 














图 像 或 信号 ) 方面 的 新 型 机 
降 维 和 分 类 纳入 同一 框架 ， 这 为 人 


J 
赢得 了 很 高 的 分 数 。 他 培训 过 多 家 大 型 公司 的 员工 ， 教 他 们 用 Hadoop 和 MapReduce 分 析 


大 数据 。 他 的 大 数据 分 析 专 业 知识 包括 HDFS、Pig、Hive 和 Spark. 


Dipanjan Sarkar 是 Intel 公司 的 一 名 数 和 
它 的 使 命 是 让 世界 更 加 连通 和 更 
























































明科 学 家 。Intel 是 世界 上 最 大 


效率 。 他 主要 从 事 分 析 、 商 业 智 能 、 


Dy 


器 学 : 





N 





的 半导体 公司 ， 
开发 和 构建 大 























规模 的 智能 系统 方面 的 工作 。 他 从 班加罗尔 的 印度 信息 技术 学 院 CIT) 获得 信息 技术 硕士 





学 位 。 他 的 专业 领域 包括 软件 工程 、 
Dipanjan 的 兴趣 包括 学 习 新 技术 、 数 据 科学 和 最 近 的 深度 学 习 L 








数据 科学 、 机 器 学 习 和 文本 分 析 。 





初创 企业 动态 。 业 余 时 间 ， 他 喜欢 阅读 、 写 作 、 玩 游戏 和 看 情景 嘉 





器 学 习 的 书 R Machine Learning by Example, ZP H Packt Publishing 出 
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加 商业 数据 的 技能 了 
j 线 上 产生 的 数据 ， 以 改进 自身 业务 ， 





























可 能 具有 商业 价值 的 海量 信息 ， 

















能 做 得 到 








解 这 些 算法 和 技术 ， 并 介 














或 将 数据 出 人 











。 数 据 科 学 采用 机 器 学 
特定 实体 的 行为 。 这 些 算法 和 技术 在 当今 以 技术 为 主导 的 业务 领域 是 必 不 可 少 的 。 本 书 讲 

















FE 变 得 越 来 越 重要 。 公 


人 




















;给 其 他 公司 


司 若 有 线 上 业务 ， 可 
。 重 组 或 分 析 这 些 











只 有 掌握 专业 知识 的 数据 科学 〈 或 数据 挖掘 ) 专业 人 士 才 


习 技 术 将 数据 转化 为 模型 ， 以 便 预 测 业 务 领域 高 度 重 视 的 











如 何 














将 其 部 署 到 真实 的 商业 环境 。 




















术 ， 











nk s sat 


并 有 机 会 在 
用 于 实际 工作 。 为 了 充分 掌握 
、 线 性 代数 和 统计 方法 。 











。 网 上 有 和 大 




















多 关于 这 些 主题 的 教程 和 
(https://docs.python.org/)， 阅 读 A. Bluman 的 
M R. L. Berger 合 著 的 Statistical Inference, Ti 
代数 ， 可 阅读 G. Strang 所 写 的 Linear Algebra and Its Applications . 
















































































ET 


课程 ， 但 我 们 建议 你 阅读 Python 官方 文档 
Elementary Statistics 以 及 由 
E 解 主要 的 统计 概念 和 方法 。 学 习 线 性 








j 的 机 器 学 习 








系列 旨 在 提高 商业 智能 的 练习 和 应 用 中 使 用 它们 。 从 本 书 学 到 的 技能 ， 
中 所 讨论 的 各 个 主题 ,我们 希望 你 已 熟悉 Python 编程 语 
































G. Casella 














本 章 作 为 入 门 章 节 , 目的 是 让 你 熟悉 Python 机 器 学 习 的 专业 人 士 所 使 用 的 更 为 高 级 的 











节 的 各 





OUR. 








讲解 本 书 所 












































个 实例 ， 展 示 在 真实 场景 中 书 


1.1 











] 库 之 前 ， 我 们 9 

















本 书 讨论 
些 算法 ， 帮 你 和 


最 常用 的 机 器 学 习 旬 





TES 



































法 ， 并 在 练习 中 加 以 运 月 
BAA, BERG BLM 























e 



































库 和 工具 ， 比 如 NumPy. pandas 和 matplotlib， 帮 你 掌握 必要 技术 知识 ， 以 便 实 现 后 续 章 
E 来 曾 明 机 器 学 习 领 域 的 主要 概念 ， 并 通过 一 
器 学 习 算 法 如 何 给 出 有 用 的 预测 信息 。 


机 器 学 习 常 用 概念 




















日， 从 而 使 你 熟悉 它们 。 为 了 解释 这 
HEUS. Jaen 


介绍 。 
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首先 ， 若 要 为 机 器 学 习 下 定义 ， 一 个 较为 贴切 的 定义 是 ， 机 器 学 习 是 计算 机 科学 的 


一 个 分 支 ， 从 模式 识别 、 人 工 智 能 和 计生 
作 是 数据 挖掘 工具 ， 侧 重 于 用 数据 分 析 方 法 理 
够 从 先前 观测 的 数据 ， 通 过 可 调整 的 参数 〈 通 常 
的 程序 ， 为 了 改善 预测 结果 ， 将 参数 设计 为 可 自动 
! 行 为 ， 概 括 (generalize) 数据 的 内 在 结构 ， 而 不 
进行 排序 (或 检索 )。 因 此 ， 机 器 学 习 蛙 
种 行为 。 机 器 学 习 方 法 常见 的 行业 应 月 












































































































































闫 习 理论 发 展 而 来 。 我 们 也 可 以 将 机 器 学 习 看 
定 的 数据 。 该 学 科 的 目的 是 ， 开 发 能 
































双 精 度数 值 组 成 的 数组 ) 进行 学 习 














只 是 像 常见 的 数据 库 系 统 那样 对 数值 
中 计算 统计 "相关 ， 也 是 尝试 根据 先前 数据 预测 某 


过滤 器、 搜索 引擎 、 光 学 字符 识别 












































周 整 的 。 计 算 机 用 这 种 方式 可 预测 某 





























COCR) 和 计算 机 视觉 。 既 已 给 出 该 学 科 的 定义 ， 我 们 接 下 来 更 详细 地 介绍 每 种 机 器 学 习 





问题 所 用 术语 。 











任何 学 习 问 题 都 始 于 一 个 包含 n 个 样本 个 体 的 数据 集 ， 未 知 数据 的 特性 (properties) 
根据 数据 集 来 预测 。 每 个 个 体 通 常 包 含 一 个 以 上 的 数值 ， 因 此 它 是 一 个 向 量 。 向 量 的 组 成 























元 素 ? 叫 作 特 征 〈feature)。 例 如 ， 





























价格 。 二 手 车 数据 集中 ， 每 辆 车 i 



































民 据 二 手 车 的 制造 时 间 、 颜 色 和 能 耗 等 车 况 信息 预测 其 
示 成 一 个 特征 向 量 xG)， 对 应 i 这 辆 车 的 颜色 、 能 耗 等 


























车 况 信 息 。 每 辆 车 i 还 有 一 个 与 之 对 应 的 
训练 样 例 Ctraining example〉 由 一 对 (x(i), AR. H 
SEE m HE VIREO), YO); i=1,…,N}。 












































标 ( 或 标签 ) 变量 y(i)， 即 二 手 车 的 价格 。 一 个 








日 V 个 数据 点 组 成 、 用 于 学 习 的 整个 











T x 表示 特征 〈 输 入 ) BH. y 为 目标 〈 输 出 ) 




















值 空 间 。 为 解决 问题 选用 的 机 器 学 习 
练 集 上 调试 。 训 练 完 成 后 ， 模 型 的 预测 性 
验证 集 用 来 从 多 个 模型 中 选择 能 给 










































































法 用 数学 模型 来 描述 ， 模 型 包含 一 些 参 数 ， 需 在 训 
能 用 另外 两 个 数据 集 来 评估 : 验证 集 和 训练 集 。 
最 佳 结果 的 那个 ， 测 试 集 通常 用 来 决定 所 选用 模型 的 


























实际 准确 率 (precision) ^. 通常 , 数据 集 的 50% 划 作 训 练 集 , 验证 集 和 测试 集 则 各 使 用 25% 











学 习 问 题 可 分 为 两 大 类 (本 书 对 这 两 类 均 有 大 量 介绍 )。 
无 监督 学 习 : 给 定 的 训练 集 只 有 作为 输入 的 特征 向 量 x， 而 未 给 出 任何 相对 应 的 标签 。 




















该 类 学 习 的 目标 通常 为 ， 用 聚 类 























(project) 到 维 数 更 少 的 空间 《〈 盲 信 和 号 分 离 售 























例 通常 没有 目标 值 ， 所 以 无 法 直接 月 














同 点 。 





CD 原文 为 “computational statics”， 其 中 “statics” 应 为 statistics。 





Q 分 量 一 一 译 者 注 
@ 精度 一 一 译 者 注 











译 者 注 








数据 中 的 相似 样 例 ， 或 将 数据 从 高 维 空间 映射 
法 ， 比 如 主 成 分 分 析 PCA)。 因 为 每 个 训练 样 
训练 数据 评估 模型 的 错误 率 ; 这 就 需要 使 用 其 他 方法 ， 
评估 簇 内 元 素 的 相似 度 以 及 簇 间 元 素 的 差异 程度 。 这 是 无 监督 和 有 监督 学 习 的 一 个 主要 不 
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。 有 上 监督 学 习 ”: 给 定 训练 集 的 每 个 个 体 是 一 对 作为 输入 的 特征 向 量 和 标签 。 该 类 学 


习 


e 分类: 数据 的 目标 值 属于 两 个 或 以 上 类 别 , 分 类 的 目标 是 学 习 如 何 预测 训练 集中 











的 任务 是 推 


断 各 个 参数 ， 预 测 测试 数据 的 目标 值 。 























这 些 问题 可 进一步 分 为 : 
































未 标记 的 数据 的 类 别 。 分 类 是 一 种 离散 型 (与 之 对 应 的 是 连续 型 ) 有 监督 学 习 方 








将 每 个 特 生 









































法 ,标签 所 代表 的 类 别 有 限 。 手 写 体 数字 识别 是 分 类 问题 的 实际 应 用 ， 甚 目标 是 


















































向 量 匹 配 到 一 组 数量 有 限 的 离散 型 类 别 中 的 某 个 类 别 。 


e 回归 : 标签 为 连续 型 变量 。 例 如 ， 根 据 孩 子 的 年 龄 和 体重 预测 身高 就 是 一 个 回归 


本 书 第 2 章 集 中 介绍 无 监 
着 手 讲 解 Web 挖掘 技 


有 监督 学 习 范 畴 。 第 6 章 介绍 Django Web 框架 。 第 7 3&3 























问题 。 



































术 ， 也 可 将 其 看 作 有 监督 和 无 监督 方 ; 














茎 学 习 方 法 ， 第 3 章 讨 论 最 常用 的 有 监督 学 习 算法 。 第 4 章 


yH 


[ud 
M 















































。 第 5 章 讲解 推荐 系统 ， 属 了 
日 介绍 推荐 系统 (用 到 Django 









































框架 和 第 5 章 相关 知识 ) 的 实现 。 我 们 以 一 个 Django Web 挖掘 应 用 实例 结束 本 书 ， 实 现 该 

















hv FJ mis fs 




















IME 4 章 学 到 的 一 些 技术 。 学 完 本 书 ， 
并 有 能 力 将 其 部 署 到 用 Django 实现 的 真实 Web 应 用 。 

本 章 接 下 来 我 们 将 给 出 一 个 实例 ， 展 示 机 器 学 习 如 何 用 
Python Æ (NumPy, pandas 和 matplotlib) 教程 。 只 有 掌握 这 些 库 的 用 法 ， 才 能 实现 从 后 续 
章节 学 到 的 各 种 算法 。 





Blase 2n 











为 了 进 



































尔 应 该 能 够 理解 不 同 的 机 器 学 习 方 法 ， 



































于 实际 业务 问题 ， 还 将 给 出 











步 解释 机 器 学 习 可 以 拿 真 实数 据 做 什么 , 我 们 一 起 来 看 下 面 这 个 例子 (下 面 的 代 


码 可 从 作者 的 GitHub 主页 该 书 的 文件 夹 下 找到 ， 地 址 为 https://github.com/ai2010/machine_ 
learning for the_web/tree/master/chapter_1/。 我 们 从 UCI 机 器 学 习 数 据 库 Chttp:/archive.ics.uci.edu/) 
下 载 因 特 网 广告 数据 集 (Internet Advertisements Data Set, http://archive.ics.uci.edu/ml/ 


datasets/Internet+Advertisements)。 这 些 Web 广告 从 


转换 为 一 个 特征 向 量 ， 





















































其 元 素 为 数值 类 型 。 从 ad.names XH 


各 样 的 网 页 收集 而 来 ， 每 个 网 页 被 









































F， 我 们 可 以 看 到 前 三 个 特征 表 




















示 网 页 中 广告 图 像 的 尺寸 , 其 他 特征 表示 图 像 的 URL 或 在 文本 中 出 现 了 哪些 特定 词语 ( 共 





















































有 1558 个 特征 )。 根 据 网 页 中 是 否 有 广告 ， 标 签 的 取 值 为 ad 或 nonad。 举 个 例子 ， 一 个 网 
页 在 ad.data 文件 中 是 这 么 表示 的 : 

L207 I255 2 Tra. vu x Oz ad. 
CD 还 有 一 类 叫 作 半 监督 学 习 ， 学 习 器 从 未 标记 样本 自动 学 习 。 见 周志 华 著 的 《机 器 学 习 》 。 
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根据 这 些 数据 ， 一 个 经 典 的 机 器 学 习 任 务 是 找到 一 个 模型 ， 预 测 哪些 网 页 是 广告 ， 哪 


























些 不 是 广告 














(分 类 )。 首 先 来 看 一 下 包含 全 部 特征 向 量 和 标签 的 ad.data 文件 ， 我 们 发 现 它 









































包含 一 些 用 ?表示 的 缺失 值 。 我 们 可 以 用 Python 的 pandas 库 将 ?转换 为 -1 Cpandas 库 详细 教 








程 见 下 市 ); 


import 











pandas as pd 


df = pd.read csv('ad-dataset/ad.data' ,header=None) 


df=df. 
df=df. 
df=df. 
df=df 
df=df. 
df=df. 


replace(('?': np.nan}) 


replace((' ?': np.nan}) 
replace ({' ?': np.nan}) 
.replace((' ?': np.nan}) 
replace((' ?': np.nan}) 
fillna(-1) 











BLA ad.data 文件 中 的 数据 ， 创 建 一 个 DataFrame 对 象 ， 先 把 每 个 ?替换 为 一 个 特殊 的 
元 素 (replace 函数 )， 然 后 再 蔡 换 为 -1 Cfillna 函数 )。 这 样 每 个 标签 都 被 转换 为 数值 类 型 元 


A AGE 
adindi 
df.loc 
nonadi 
df.loc 


df[df. 
































的 其 他 元 素 亦 同 ): 


ces = df[df.columns[-1]]== 'ad.' 

[adindices ,df.columns [-1]]=1 

ndices = df[df.columns[-1]]=='nonad.' 
[nonadindices ,df.columns[-1]]=0 

columns [-1] ]=df[df.columns[-1]] .astype (float) 


df.apply (lambda x: pd.to_numeric (x) ) 




















每 个 ad. 标 签 转换 为 1， 而 nonad. 则 被 替换 为 0。 所 有 的 列 《〈 特 征 ) 需要 是 浮 点 型 的 数 























数值 型 )。 
我 们 使 

算法 预测 数 

(20%): 























值 ( 用 astype 函数 将 标签 转换 为 浮 点 型 ， 在 lambda 函数 中 用 to numeric 函数 将 df 转换 为 

















] scikit-learn 库 ( 见 第 3 章 ) 提供 的 支持 向 量 机 (Support Vector Machine, SVM) 
据 集中 20% 数 据 的 标签 。 首 先 ， 将 数据 分 为 两 部 分 : 训练 集 (80%) 和 测试 集 












































import numpy as np 

dataset = df.values[:,:] 

np.random. shuffle (dataset) 

data = dataset[:,:-1] 

labels = dataset[:,-1] .astype (float) 
ntrainrows = int(len(data)*.8) 


train 


= data[:ntrainrows, :] 
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trainlabels = labels[:ntrainrows] 
test = data[ntrainrows:,:] 
testlabels = labels [ntrainrows: ] 











上 述 代 码 ， 执 行 切 分 数据 集 之 前 ， 用 NumPy 库 〈 教 程 见 下 一 节 ) 封装 的 函数 ， 打 乱 数 











据 的 顺序 Crandom.shuffle 函数 )， 确 保 两 个 数据 集 的 各 行 数 据 是 随机 选取 的 。 切 片 操作 中 


的 - 














1， 表 示 数 组 的 最 后 一 列 不 予 考虑 。 
现在 ， 我 们 用 训练 数据 训练 SVM 模型 : 





from sklearn.svm import SVC 
clf = SVC (gamma=0.001, C=100.) 
clf.fit(train, trainlabels) 


我 们 声明 一 个 SVM 模型 ， 指 定 参数 ， 并 将 模型 赋 给 clf 变量 。 调 用 fit 函数 ， 用 训练 数 


























据 拟 合 (fit) 模型 (更 多 内 容 见 第 3 章 )。 预测 20% 测 斌 数据 的 平均 正确 率 (mean accuracy), 


























] score 函数 来 计算 ， 代 码 如 下 : 


Score-clf.score(test,testlabels) 
print 'score:',score 








运行 上 述 代码 《完整 代码 见 作者 GitHub 主页 chapter 1 文件 夹 )， 得 到 92% 的 正确 率 ， 























也 就 是 说 测试 集 标签 的 预测 结果 中 ，92% 的 预测 标签 跟 实 际 标签 相同 。 这 就 是 机 器 学 习 的 
威力 所 在 : 根据 以 往 数据 ， 我 们 能 够 推断 一 个 网 页 是 否 包含 广告 。 为 了 实现 预测 功能 ， 我 


们 做 了 必要 的 准备 工作 ， 用 NumPy 和 pandas 库 准 备 和 预 处 理 数据 ， 然 后 用 scikit-learn PE 
封装 的 SVM 算法 处 理 清洗 过 的 数据 。 鉴 于 本 书 将 大 量 使 用 NumPy 和 pandas (有 时 也 会 用 


到 







































































































































































matplotlib ) 库 ， 下 面 几 节 将 分 别 介绍 这 些 库 的 安装 方法 以 及 用 它们 处 理 〈 甚 至 创建 数 








据 的 方法 。 


B 





安装 和 导入 模块 〈 库 ) 


继续 讨论 这 些 库 之 前 ， 我 们 先 讲 怎样 在 Python 中 安装 模块 。 常 用 的 模块 安装 方法 是 ， 





























终端 使 用 pip 命令 : 








>>> sudo pip install modulename^ 


然后 ， 通 常 使 用 下 述 语句 导入 模块 : 











O 注意 是 在 终端 而 不 是 Python shell 里 运行 pip 命令 。 该 处 代码 应 去 掉 前 面 的 Python shell 提示 符 。 一 一 译 者 注 
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import numpy as np 

















其 中 ，numpy 是 包 名 ，np 指 代 numpy， 做 了 这 一 步 操作 之 后 ， 该 库 中 的 所 有 函数 X 都 
可 以 用 np.X 而 不 必用 numpyX 访问 。 本 书 从 此 往 后 假定 所 有 的 库 (scipy、 scikit-learn、pandas、 
scrapy 和 nltk 等 ) 都 用 上 面 这 种 方式 来 安装 和 导入 。 


1.2 数据 的 准备 、 处 理 和 可 视 化 
matplotlib 教程 


















































NumPy、pandas 和 


























大 多 数 数据 在 我 们 拿 到 时 ， 其 形式 很 不 实用 ， 无 法 直接 用 机 器 学 习 算 法 处 理 。 如 上 
一 个 例子 所 见 〈 上 一 节 )， 数 据 中 有 些 元 素 可 能 缺失 ， 或 某 些 列 不 是 数值 型 ， 因 此 无 法 直 
接 用 机 器 学 习 技术 处 理 。 因 而 ， 机 器 学 习 专 家 通常 花费 大 量 时 间 清 洗 和 准备 数据 ， 转 换 
数据 的 形式 , 以 便 进 一 步 分 析 或 做 可 视 化 处 理 , 本 节 教 你 用 NumPy 和 pandas 库 , 用 Python 
语言 创建 、 准 备 和 处 理 数据 。matplotlib 小 节 ， 将 介绍 Python 绘图 基础 知识 。NumPy 教 
时 结合 Python shell 进行 讲解 ， 但 是 代码 的 [Python notebook 版 和 纯 Python 脚本 版 ， 都 已 
放 到 作者 GitHub 主页 chapter 1 FFI. pandas 和 matplotlib 两 个 库 的 讲解 则 用 IPython 
notebook。 


1.2.1 NumPy 的 用 法 




















































































































































































































Numerical Python 或 NumPy 是 Python 的 一 个 开源 扩展 包 , 是 数据 分 析 和 高 性 能 科学 计 
算 的 基础 模块 。 该 库 问 世 后 ， 用 Python 处 理 大 规模 、 多 维 数组 和 和 抑 阵 不 再 是 梦想 。 对 于 常 
数值 计算 ， 它 提供 预先 编译 好 的 函数 。 更 进一步 来 讲 ， 它 提供 一 个 巨大 的 数学 函数 库 来 
支持 数组 运 


该 库 提 供 以 下 功能 : 

。 用 于 向 量 算术 运算 的 快速 、 多 维 数组 ; 

。 对 数据 中 所 有 数组 进行 快速 运算 的 标准 数学 函数 ; 
。 线性 代数 运 
。 排序 、 去 重 (unique) 和 集合 运算 ; 

。 统计 和 聚合 数据 。 

比 起 Python 的 标准 运算 ，NumPy 的 主要 优势 在 于 数组 运算 速度 快 。 例 如 ， 用 传统 的 
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求 和 方法 ， 求 10000000 个 元 素 的 和 : 


>>> def sum trad(): 

>>> start = time.time () 

>>> X = range (10000000) 

>>> Y = range (10000000) 

>> Z= [] 

>>> for i in range(len(X)): 


>>> Z.append(X[i] + Y[i]) 
>>> return time.time() - start 
与 NumPy 函数 对 比 : 


>>> def sum numpy(): 

>>> start = time.time() 

>>> X = np.arange (10000000) 
>>> Y = np.arange (10000000) 
>>> Z=X+Y 

>>> return time.time() - start 


>>> print 'time sum:',sum trad(),' time sum numpy:',sum_numpy () 


time sum: 2.1142539978 





time sum numpy: 0.0807049274445 


两 种 方法 所 用 时 间 分 别 为 2.1142539978 和 0.0807049274445. 


1. 数组 创建 











数组 对 象 是 NumPy 库 提 供 的 主要 功能 。 数 组 
所 有 元 素 的 数值 类 型 相同 (通常 为 浮 点 型 或 整 型 ) 
































[相当 于 Python 的 列表 (Uist)， 但 数组 
。 借 助 array 函数 ， 可 用 列表 定义 一 个 



































数组 对 象 ， 需 为 array 函数 传 入 两 个 参数 : 即将 被 转换 为 数组 的 列表 、 新 生成 的 数组 的 


>>> arr = np.array([2, 6, 5, 9], float) 


>>> arr 

array([ 2., 6., 5., 9.]) 
>>> type (arr) 

<type 'numpy.ndarray'> 





反之 ， 可 用 如 下 代码 将 数组 转换 为 列表 : 





>>> arr = np.array([1, 2, 3], float) 
>>> arr.tolist() 
[1.0, 2.0, 3.0] 
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>>> list(arr) 
[1.0, 2.0, 3.0] 


_ ”将 数组 赋 给 变量 ,新 建 数组 ,这 样 做 不 会 在 内 存 为 数组 
< 欢 人 创建 一 个 新 的 副本 , 它 只 是 将 新 定义 的 变量 指向 原 数组 
对 象 。 


若 想 用 现 有 数组 ， 创 建 一 个 新 的 数组 对 象 ， 则 要 用 copy 函数 : 








>>> arr = np.array([1, 2, 3], float) 
>>> arrl = arr 

>>> arr2 = arr.copy () 

>>> arr[0] = 0 


>>> arr 
array([0., 2., 3.]) 
>>> arrl 
array([0., 2., 3.]) 
>>> arr2 


array([1., 2., 3.]) 




















此 外 ,还 可 以 用 同一 个 值 填充 数组 ， 履 盖 掉 之 前 的 值 ， 得 到 一 个 元 素 全 部 相同 的 数组 ， 
例如 : 




















>>> arr = np.array([10, 20, 33], float) 
>>> arr 

array([ 10., 20., 33.]) 

>>> arr.fill(1) 

>>> arr 

array([ 1., 1., 1.]) 














还 可 以 用 np 的 子 模块 random 随机 选取 元 素 创 建 数 组 。 例 如 ， 将 要 创建 的 数组 的 长 度 
VEN permutation 函数 的 参数 传 入 ， 该 函数 返回 一 个 由 整数 组 成 的 随机 序列 : 

















>>> np.random.permutation (3) 
array([0, 1, 2]) 








另 一 种 数组 创建 方法 是 用 normal 函数 从 一 个 正 态 分 布 中 抽取 一 列 数字 ， 


>>> np.random.normal(0,1,5) 




















C 整数 的 取 值 范围 为 大 于 等 于 0， 小 于 指定 的 参数 。 译 者 注 
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array ([-0.66494912, 0.7198794 , -0.29025382, 0.24577752, 0.23736908]) 





参数 0 为 正 态 分 布 的 均值 ，1 为 标准 差 ，5 表示 抽取 5 个 数字 创建 数组 。 若 使 用 均匀 分 
fü, random 函数 将 返回 0 到 1 之 间 ( 不 包含 0 和 1) 的 数字 : 
































>>> np.random.random(5) 
array([ 0.48241564, 0.24382627, 0.25457204, 0.9775729 , 0.61793725]) 


























NumPy 3532 ft LP GJ ££ EA GERE) 的 函数 。 例 如 ，identity 函数 创建 单位 矩阵 ， 
仁 度 用 参数 来 指定 : 




















II 
AWS 














>>> np.identity(5, dtype=float) 
array([[ 1., 0., 0., 0., 0.], 





[ 0., 1., 0., 0., 0.], 
[0., 0., 1., 0., O.], 
[Oy 07; 0., 1., 0.]l, 
[0., 0., 0., O., 1.]]) 
eye 函数 返回 第 大 条 对 角 线 上 元 素 为 1 的 矩阵 。 

















>>> np.eye(3, k=1, dtype=float) 
array([[ 0., 1., 0.], 

[ 0., 0., 1.], 

[ 0., 0., 0.]]) 





Tar 





创建 新 数组 (1 或 2 280 最 常用 的 函数 是 zeros 和 ones, 它们 按照 指定 的 维度 创建 数组 ， 
并 分 别 用 0 或 1 填充。 示例 如 下 : 























>>> np.ones((2,3), dtype=float) 
array([[ 1., 1., 1.], 

fy 27 they. 11) 
>>> np.zeros(6, dtype=int) 
array([0, 0, 0, 0, 0, 0]) 




















而 zeros like 和 ones like 函数 ， 创 建 的 是 跟 现 有 数组 元 素 的 类 型 "和 维度 都 相同 的 数组 : 


>>> arr = np.array([[13, 32, 31], [64, 25, 76]], float) 
>>> np.zeros like (arr) 
array([[ 0., 0., 0.], 








O 指数 组 内 各 元 素 的 数值 类 型 。 一 一 译 者 注 
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[ 0., 0., 0.]]) 
>>> np.ones_like (arr) 
array([[ 1., 1., 1.], 

[ 1.; Le, 1.11) 






































另外 一 种 创建 二 维 数组 的 方法 是 ， 用 vstack 函数 (垂直 方向 合并 ) 合并 一 维 数组 : 





























>>> arrl = np.array([1,3,2]) 
>>> arr2 = np.array([3,4,6]) 
>>> np.vstack([arrl,arr2]) 
array([[1, 3, 2], 

[3, 4, 6]]) 



































二 维 数组 也 可 以 用 random 子 模 块 按照 某 种 分 布 进行 创建 。 例 如 , 随机 从 0 到 1 的 均匀 
分 布 中 选取 数字 作为 数组 元 素 ， 创 建 一 个 2X3 型 数组 ， 方 法 如 下 : 





— 




















>>> np.random.rand (2,3) 
array ([[ 0.36152029, 0.10663414, 0.64622729], 
[ 0.49498724, 0.59443518, 0.31257493]]) 





另 一 种 经 常用 来 创建 数组 的 分 布 是 多 元 正 态 分 布 : 


>>> np.random.multivariate_normal([10, 0], [[3, 1], [1, 4]], size=[5,]) 
array ([[ 11.8696466 , -0.99505689], 

10.50905208, 1.47187705], 

9.55350138, 0.48654548], 

[ 10.35759256, -3.72591054], 

[ 11.31376171, 2.15576512]]) 


m c 











列表 [10,0] 是 均值 向 量 ，[[3, 1], [1, AEAEE, 5 是 要 抽取 的 元 素数 量 。 
d 1.4 




























































































方法 用 途 

tolist 将 NumPy 数组 转换 为 Python 列表 的 函数 

copy 复制 NumPy 数组 元 素 的 函数 

ones, zeros 创建 用 1 或 0 填充 的 数组 的 函数 

zeros like, ones like 该 函数 用 来 创建 与 作为 参数 的 列表 形状 相同 的 二 维 数组 
fill 将 数组 元 素 蔡 换 为 某 一 特定 元 素 的 函数 
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续 表 
方法 用 途 
identity 创建 单位 矩阵 的 函数 
eye 该 函数 用 来 创建 第 条 对 角 线 上 元 素 为 0 的 矩阵 


























vstack 将 数组 合并 为 二 维 数组 的 函数 


























random 子 模 块 : random. permutation, | random 子 模块 从 某 种 分 布 抽取 元 素 ， 创 建 数组 


normal、rand、multivariate_normal 等 


作用 











2. 数组 操作 
访问 列表 元 素 、 切 片 以 及 其 他 Python 列表 的 所 有 常见 操作 ， 均 能 以 相同 或 相似 的 方式 












































于 数组 : 


>>> arr = np.array([2., 6., 5., 5.]) 
>>> arr[:3] 

array([ 2., 6., 5.]) 

>>> arr[3] 

5.0 

>>> arr[0] = 5. 

>>> arr 

array([ 5., 6., 5., 5.]) 


数组 所 包含 的 不 同 元 素 也 可 以 获取 到 ， 用 unique 函数 即 可 : 


>>> np.unique (arr) 
array([ 5., 6.]) 


数组 元 素 的 排序 也 可 以 用 sort 函数 。 数 组 的 索引 用 argsort 函数 获取 : 


>>> arr = np.array([2., 6., 5., 5.]) 
>>> np.sort (arr) 

array([ 2., 5., 5., 6.]) 

>>> np.argsort(arr) 

array([0, 2, 3, 1]) 

















FA shuffle 函数 也 可 以 调整 数组 元 素 ， 使 其 随机 排列 : 








>>> np.random.shuffle (arr) 
>>> arr 
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array([ 2., 5., 6., 5.]) 



































NumPy 数组 类 似 ， 也 有 一 个 内 置 函数 array equal， 用 来 比较 两 个 数组 是 否 相等 ”: 


>>> np.array equal (arr,np.array([1,3,2])) 
False 














ln 























然而 ， 多 维 数组 与 列表 操作 不 同 。 事 实 上 ， 多 维 列 表 各 维度 用 去 号 分 隔 的 形式 依次 指 




















定 〔 而 列表 用 方 括 号 ”)。 例 如 ， 二 维 列表 (和 矩阵 ) 元素 访问 方法 如 下 : 

















>>> matrix = np.array([[ 4., 5., 6.], [2, 3, 6]], float) 
>>> matrix 
array([[ 4., 5., 6.], 
[ 2., 3., 6.]]) 
>>> matrix[0,0] 
4.0 
>>> matrix[0,2] 
6.0 























对 数组 的 各 维 进行 切片 操作 使 用 英文 冒号 :， 冒 号 前 后 为 位 于 起 始 位 置 和 结束 位 置 的 元 





























素 的 索引 : 


>>> arr = np.array([[ 4., 5., 6.], [ 2., 3., 6.]], float) 
>>> arr[1:2,2:3] 
array([[ 6.]]) 






























































仅 用 冒号 :， 不 用 数字 ， 表 示 冒 号 所 在 轴 上 的 所 有 元 素 都 在 切片 范围 之 内 : 








>>> arr[1,:] 
array([2, 3, 6]) 
>>> arr[:,2] 
array([ 6., 6.]) 
>>> arr[-1:,-2:] 
array([[ 3., 6.]]) 


flatten 函数 可 将 多 维 数组 变 为 一 维 数组 : 








(D 相等 ， 指 形状 和 元 素 是 否 均 相等 。 此 外 ， 列 表 比 较 用 cmp 函数 。 一 一 译 者 注 























@ >>>multilist = [[4, 5, 6], [2, 3, 6]] 
>>>multilist[0][0] 


4 





12 数据 的 准备 、 处 理 和 可 视 化 一 一 NumPy、pandas 和 matplotlib 教程 13 








>>> arr = np.array([[10, 29, 23], [24, 25, 46]], float) 
>>> arr 
array([[ 10., 29., 23.], 
[ 24., 25., 46.]]) 
>>> arr.flatten() 
array([ 10., 29., 23., 24., 25., 46.]) 





我 们 还 可 以 查看 数组 对 象 ， 获 取 相 关 信息 。 用 shape 属性 ， 可 得 到 数组 的 大 小 : 








>>> arr.shape 
(2, 3) 


BI, am 是 一 个 2 fT 3 列 的 矩阵 。dtype 属性 返回 数组 元 素 的 类 型 : 











>>> arr.dtype 
dtype('float64') 





数值 类 型 float64 用 来 存储 双 精 度 (8 字 节 ) 实数 〈 类 似 于 Python 的 标准 float 类 型 )。 











其 他 数据 类 型 有 int64、int32 和 字符 串 。 数 组 的 数据 类 型 可 以 转换 。 例 如 : 


>>> int arr = matrix.astype (np.int32) 
>>> int arr.dtype 
dtype ('int32') 





len 函数 返回 数组 第 一 维 的 长 度 : 














>>> arr = np.array([[ 4., 5., 6.], [ 2., 3., 6.]], float) 
>>> len (arr) 
2 








REF in， 类 似 于 它 在 Python for 循环 中 的 用 法 ， 可 用 来 判断 数组 是 否 包含 某 个 元 素 : 





>>> arr = np.array([[ 4., 5., 6.], [ 2., 3., 6.]], float) 
>>> 2 in arr 

True 

>>> 0 in arr 

False 





reshape 函数 可 调整 数组 的 维度 。" 例 如 ，8 fr 1 列 的 和 矩阵 可 调整 为 4 4T 2 列 的 矩阵 : 



































“LHP RAL reshape 函数 可 调整 元 素 所 在 的 维度 。 一 一 译 者 注 
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>>> arr = np.array(range(8), float) 
>>> arr 
array([ 0., 1., 2., 3., 4., 5., 6., 7.]) 
>>> arr = arr.reshape ( (4,2) ) 
>>> arr 
array([[ 0., 1.], 
by 2 
E 4.557]; 
[ 6., 7.]]) 
>>> arr.shape 
(4, 2) 
此 外 ， 还 支持 矩阵 的 转 置 运 算 ， 也 就 是 说 ， 用 transpose 函数 可 互 换 两 个 维度 ， 创 
个 新 数组 : 
>>> arr = np.array(range(6), float) .reshape((2, 3)) 
>>> arr 
array([[ 0., 1., 2.], 
br 42% E D) 


>>> arr.transpose () 
array([[ 0., 3.], 

[ 1., 4.], 

[ 2., 5.11) 





数组 还 可 以 用 





属性 实现 转 置 : 


>>> matrix 
>>> matrix 


array([[ 0, 1, 2, 3, 4], 

[ 5, 6, 7, 8, 9], 

(10, 11, 12, 13, 14]]) 
>>>matrix .T 
array([[ 0, 5, 10], 

[ 1, 6, 11], 

[ 2, 7, 12], 

[ 3, 8, 13], 

[ 4, 9, 14]]) 








另 一 种 调整 数组 元 素 位 置 的 方法 是 ， 月 


np.arange (15) .reshape((3, 5)) 























>>> arr 
>>> arr 


np.array([14, 32, 13], 


H newaxis 函数 增加 维度 ; 


float) 





建 
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array([ 14., 32., 13.]) 
>> arr[:,np.newaxis] 
array([[ 14.], 

[ 32.], 

[ 13.11) 
>>> arr[:,np.newaxis].shape 
(3,1) 
>>> arr[np.newaxis, :] 
array([[ 14., 32., 13.]]) 
>>> arr[np.newaxis,:].shape 
(1,3) 


上 述 例子 ， 两 个 新 数组 都 是 二 维 的 。 由 newaxis 生成 的 第 二 个 数组 长 度 为 1。 


NumPy 数组 的 连接 操作 用 concatenate 函数 ， 句 法 形式 取决 于 数组 的 维度 。 多 个 一 维 数 
组 可 相继 连接 ， 将 要 连接 的 多 个 数组 置 于 元 组 中 作为 参数 传 入 即 可 : 


























>>> arrl = np.array([10,22], float) 

>>> arr2 np.array([31,43,54,61], float) 

>>> arr3 = np.array([71,82,29], float) 

>>> np.concatenate((arrl, arr2, arr3) ) 

array([ 10., 22., 31., 43., 54., 61., 71., 82., 29.]) 














多 维 数组 必须 指定 沿 哪 条 轴 连 接 。 否 则 ，NumPy 默认 沿 第 一 条 轴 连 接 : 


>>> arrl = np.array([[11, 12], [32, 42]], float) 
>>> arr2 = np.array([[54, 26], [27,28]], float) 
>>> np.concatenate((arrl,arr2) ) 
array([[ 11., 12.], 

[ 32., 42.], 

[ 54., 26.], 

[ 27., 28.]]) 
>>> np.concatenate((arrl,arr2), axis=0) 
array([[ 11., 12.], 

[ 32., 42.], 

[ 54., 26.], 

[ 27., 28.]]) 
>>> np.concatenate((arrl,arr2), axis-1) 
array([[ 11., 12., 54., 26.], 

[ 32., 42., 27., 28.]]) 






































将 大 量 数据 保存 为 二 进 制 文件 而 不 用 原 FEVER, 这 样 的 情况 很 常见 。NumPy 的 ene 
函数 可 将 数组 转化 为 二 进 制 字符 串 。 当 然 ， 这 个 过 程 是 可 逆 的 ，fromstring 函数 可 将 二 进 制 
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字符 串 还 原 为 数组 。 例 如 ; 


>>> arr = np.array([10, 20, 30], float) 

>>> str = arr.tostring() 

>>> str 
"\x00\x00\x00\x00\x00\x00$@\x00\x00\x00\x00\x00\x004@\x00\x00\x00\x00\ 
x00\x00>@' 

>>> np.fromstring (str) 

array([ 10., 20., 30.]) 











zx 1.2 
方法 用 途 
unique 从 数组 选取 所 有 不 同 元 素 的 函数 
random, shuffle 调整 数组 元 素 位 置 ， 使 其 随机 排列 的 函数 
































sort 按照 升序 排列 数组 元 素 
argsort 返回 数组 元 素 升序 排列 时 的 索引 列表 ” 


sort. argsort 




























































































array_equal 比较 两 个 数组 ， 如 果 相 同 ， 返 回 True (否则 返回 False) 
flatten 将 二 维 数组 转换 为 一 维 数组 

transpose 计算 二 维 数组 的 转 置 

reshape 调整 二 维 数组 的 元 素 ， 改 变数 组 的 形状 

concatenate 沿 现 有 的 轴 ， 连 接 多 个 数组 ” 

fromstring 、tostring 二 进 制 字 符 串 和 数组 之 间 的 互相 转换 


3. 数组 运算 


NumPy 数组 显然 文 持 常 见 的 数学 运算 。 例 如 : 




















>>> arrl = np.array([1,2,3], float) 
>>> arr2 = np.array([1,2,3], float) 
>>> arrl + arr2 

array([2.,4., 6.]) 

>>> arrl-arr2 








CD 返回 结果 的 类 型 为 NumPy 数组 。 一 一 译 者 注 
© 原文 为 “Concatenate two -dimensional arrays into one matrix”， 意 思 是 拼接 两 个 数组 ， 形 成 一 个 矩阵 ， 不 够 全 面 。 因 此 ， 此 
处 译文 是 根据 SciPy.org 文档 对 concatenate 函数 的 描述 翻译 的 。 一 一 译 者 注 
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array([0., 0., 0.]) 
>>> arrl * arr2 
array([1, 4., 9.]) 
>>> arr2 / arrl 
array([1., 1., 1.]) 
>>> arrl % arr2 
array([0., 0., 0.]) 
>>> arr2**arrl 
array([1., 4., 27.]) 









































既然 上 述 运算 都 作用 于 元 素 级 别 ， 这 就 要 求 参 与 运算 的 数组 大 小 相同 。 如 果 该 条 件 不 
能 满足 ， 就 会 返回 错误 : 








>>> arrl np.array([1,2,3], float) 

>>> arr2 np.array([1,2], float) 

>>> arrl + arr2 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

ValueError: shape mismatch: objects cannot be broadcast to a single shape 






































上 述 错误 信息 的 意思 是 无 法 对 对 象 进行 广 播 (broadcast)， 因 为 大 小 不 同 的 数组 参与 运 
算 的 唯一 方法 叫 作 广播 。 广 播 的 意思 是 数组 维度 不 同时 ， 维 度 少 的 数组 将 多 次 重复 自身 ， 
直到 它 跟 另外 一 个 数组 维度 相同 。 看 下 面 的 示例 : 































































































>>> arrl = np.array([[1, 2], [3, 4], [5, 6]], float) 
>>> arr2 = np.array([1, 2], float) 
>>> arrl 
array([[ 1., 2.], 
[.:325.4.]; 
[ 5., 6.11) 
>>> arr2 
array([1., 2.]) 
>>> arrl 
array ([[ 
[ 
[ 


arr2 

24]. 
, 6.1], 
, 8.11) 


oO BAND + 


arr2 被 广播 成 大 小 跟 arrl 相同 的 二 维 数组 。 因 而 ， 对 于 arrl 的 每 一 维 ，arr2 都 重复 自 
身 一 次 ， 相 当 于 arr2 变换 为 下 面 这 个 数组 后 再 参加 运算 : 








"n 






































array([I1., 2.],[1., 2.1], [1., 2.11) 
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如 要 明确 指定 数组 的 广播 方式 ， 可 用 newaxis AEO: 

>>> arrl = np.zeros((2,2), float) 

>>> arr2 = np.array([1., 2.], float) 

>>> arrl 

array([[ 0., 0.],[ 0., 0.]]) 

>>> arr2 

array([1., 2.]) 

>>> arrl + arr2 

array([[-1., 3.],[-1., 3.11) 

>>> arrl + arr2[np.newaxis, :] 

array([[1., 2.],[1., 2.]]) 

>>> arrl + arr2[:,np.newaxis] 

array([[1.,1.],[ 2., 2.]]) 

ER Python 列表 ?不 同 的 是 ， 数 组 支持 按 条 件 查询 ， 用 布尔 数组 过 滤 元 素 就 是 一 个 
的 例子 : 

>>> arr = np.array([[1, 2], [5, 9]], float) 

>>> arr >= 7 


array([[ False, False], 
[False, True]], dtype-bool) 
>>> arr[arr >= 7] 

array([ 9.]) 


可 以 用 多 个 布尔 表达 式 获取 数组 的 子 集 : 





>>> arr[np.logical_and(arr > 5, arr < 
>>> arr 
array([ 9.]) 


11)] 


Ji 


LN 


H 


oe 





我 们 可 以 根据 索引 选取 元 素 ， 用 目标 元 素 的 索引 构造 一 个 数据 类 型 为 整 型 的 数组 ， 然 
































后 ， 将 索引 数组 放 到 目标 数组 的 后 面 ， 并 用 方 括号 括 起 来 。 例 如 ; 
>>> arrl = np.array([1, 4, 5, 9], float) 
>>> arr2 = np.array([0, 1, 1, 3, 1, 1, 1], int) 
CD 代码 中 arrl+arr2 输出 结果 有 误 。 应 为 : 
arrl + arr2 
array([[ 1., 2.], 
[i 2.1) — pk 
Q) 要 实现 Python 列表 筛选 操作 ， 可 使 用 内 置 函数 filter。 一 一 译 者 注 


























>>> arrl[arr2] 


Bi Beng! 9., 4 


array([ 1., 


p 
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-1) 


上 述 第 3 行 代码 ， 表 示 按 照 arr2 指定 的 索引 顺序 ， 从 数组 arrl 中 选取 相应 的 元 素 ， 也 




















































































































就 是 选取 arrl 的 第 0、 第 1. SE d. 28 3. 58 1. 28 1 和 第 1 个 元 素 。 用 列表 存储 目标 元 素 
的 索引 ， 可 以 达到 同样 的 选取 效果 : 

>>> arr = np.array([1, 4, 5, 9], float) 

>>> arr[[0, 1, 1, 3, 1]] 

array([ 1., 4., 4., 9., 4.]) 

多 维 数组 的 选取 操作 , 需要 使 用 多 个 一 维度 的 索引 数组 , 每 个 维度 对 应 一 个 索引 数组 。 
索引 数组 放 到 Python WP, FLY Python 列表 置 于 多 维 数组 后 面 的 方 括号 之 中 。 

第 1 个 种 子 数组 (selection array) 存储 矩阵 元 素 的 行 号 ， 第 2 个 种 子 数组 存储 列 号 。 
例如 : 

>>> arrl = np.array([[1, 2], [5, 13]], float) 

>>> arr2 = np.array([1, 0, 0, 1], int) 

>>> arr3 = np.array([1, 1, 0, 1], int) 

>>> arrl[arr2,arr3] 

array([ 13., 2., 1., 13.]) 

arr2 的 元 素 为 arrl 元 素 的 行 号 ， 而 arr3 的 元 素 则 为 arl 元 素 的 列 号 ， 因 此 从 arrl 选取 
的 第 1 个 元 素 为 位 于 第 1 行 、 第 1 列 的 13。 

take 函数 支持 以 索引 数组 为 参数 ， 从 调用 它 的 数组 选取 元 素 ， 效 果 等 同 于 上 面 的 方 括 


号 选择 法 : 
>>> arrl = np.array([7, 6, 
>>> arr2 = np.array([1, 0, 
>>> arrl.take(arr2) 
array([ 6., 7., 6., 9., 9. 























6, 
1, 


9], float) 
3, 3, 1], int) 


6.]) 





H 








>>> arrl 
>>> arr2 


>>> arrl. 


np.array([[10, 


np.array([0, 0, 
take (arr2, 





(D 指示 例 代码 第 4 行 中 的 [arr2, arr3]。 一 一 译 者 注 





H axis 参数 指定 维度 , take 函数 可 从 调 月 





昌 它 的 多 维 数组 、 沿 指定 维度 选取 一 部 分 元 素 : 








21], [62, 33]], 
1], int) 


float) 


axis=0) 
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array([[ 10., 
[ 
[ 
>>> arrl. 


array ([[ 


[ 


21.], 

10., 21.], 

62., 33.]1]) 
take(arr2, axis=1) 
10., 10., 21.]; 
62., 62., 33.]]) 
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put 函数 为 take 函数 的 逆 操作 ， 它 有 两 个 参数 : 将 元 素 放 到 什么 位 置 〈 索 引 列 表 )、 被 
投放 的 元 素来 自 哪个 数组 。put 函数 将 一 个 数组 的 元 素 放 到 调用 该 函数 的 另 一 个 数组 的 指定 























位 置 : 
>>> arrl = np.array([2, 1, 6, 2, 1, 9], float) 
>>> arr2 = np.array([3, 10, 2], float) 
>>> arrl.put([1, 4], arr2) 
>>> arri 
array([ 2., 3., 6., 2., 10., 9.]) 
本 节 最 后 ， 我 们 想 提 醒 你 注意 ， 二 维 数组 的 乘法 运算 也 是 元 素 级 的 〈 但 矩阵 乘法 











不 是 ): 




















>>> arrl = np.array([[11,22], [23,14]], float) 
>>> arr2 = np.array([[25,30], [13,33]], float) 
>>> arrl * arr2 
array([[ 275., 660.], 
[ 299., 462.]]) 
#13 
方法 用 途 
take 以 一 个 整数 数组 做 参数 表示 索引 ， 从 另 一 个 数组 选取 相应 的 元 素 





put 





将 一 个 数组 给 定位 置 的 元 素 蔡 换 为 另 一 个 数组 的 元 素 


4. 线性 代数 运算 






































j 的 运算 是 ， 和 矩阵 与 





矩阵 之 间 最 党 


























4G EERE NAB XIX. i$ 








AAR, FA np.dot 函数 ": 











QD) np.dot(X.T, XX) 的 输出 结果 附 图 有 误 ， 


np.dot (X .T, X) 


array([[125, 140, 155, 170, 185] 
[140, 158, 176, 194, 212] 
[155, 176, 197, 218, 239] 
[170, 194, 218, 242, 266] 
[185, 212, 239, 266, 293] 


”一 一 译 痢 注 





N 


1.2 


>>> X 
>>> X 
1, 
6, 
11, 


2, 3, 
7, 8, 
12, 


4], 
9], 
13, 


array ([[ 0, 
[ 5, 
[10, 
>>> X.T 
array([[ 
[ 
[ 


5, 10], 
11], 
12], 

[ 13], 

[ 1411) 
>>>np.dot(X .T, X)#X^T X 
array([[ 2.584 , 1.8753, 

[ 1.8753, 6.6636, 


[ 0.8888, 0.3884, 


, 
, 
, 


6 
6 
8 
9 


, 

















有 几 个 函数 可 数组 CR 




















"dits 
i=) 
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np.arange(15).reshape((3, 5)) 


1411) 


0.8888], 
0.3884], 
3.9781]]) 








E 阵 或 向 量 ) 不 同类 型 的 积 (内 积 、 外 积 、 向 量 积 )。 























一 维 数组 (向量 ) 的 


里 











>>> arrl 
>>> arr2 


43, 
42, 


np.array([12, 

- np.array([21, 

>>> np.outer(arrl, arr2) 

array([[ 252., 504., 168.], 
[ 903., 1806., 602.], 
[ 210., 420., 140.]]) 

>>> np.inner(arrl, arr2) 

2198.0 

>>> np.cross(arrl, arr2) 

42., -399.]) 


, 


array([ 182., 


, 


NumPy 的 linalg FRR, SCHL f X 


内 积 与 点 积 相 同 : 


10], 
14], 


float) 
float) 




















的 值 : 


>>> matrix 
>>> matrix 


array([[ 74., 22., 10.], 
[ 92., 31., 17.], 
[ 21., 22., 12.]]) 


>>> np.linalg.det (matrix) 
-2852 .0000000000032 


np.array([[74, 22, 








BEER 2 AG PE CBS ee. Wd. Th FEB EAT FU 
10], [92, 31, 17], [21, 22, 12]], float) 
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inv PR ASAE CRE A HE BO: 








>>> inv matrix = np.linalg.inv (matrix) 

>>> inv matrix 

array([[ 0.00070126, 0.01542777, -0.02244039], 
[ 0.26192146, -0.23772791, 0.11851332], 
[-0.48141655, 0.4088359 , -0.09467041]]) 

>>> np.dot(inv matrix,matrix) 


array([[ 1.00000000e+00, 2.22044605e-16, 4.77048956e-17], 
[ -2.22044605e-15, 1.00000000e+00, 0.00000000e+00], 
[ -3.33066907e-15, -4.44089210e-16, 1.00000000e+00]]) 

















>>> vals, vecs = np.linalg.eig(matrix) 

>>> vals 

array ([ 107.99587441, 11.33411853, -2.32999294]) 

>>> vecs 

array ([[-0.57891525, -0.21517959, 0.06319955], 
[-0.75804695, 0.17632618, -0.58635713], 
[-0.30036971, 0.96052424, 0.80758352]]) 





矩阵 的 特征 值 〈eigenvalues) 和 特征 向 量 〈eigenvectors) 计算 方法 很 简单 : 











表 1.4 
方法 用 途 
dot 两 个 数组 的 点 积 
inner 两 个 多 维 数组 的 内 积 



































linalg 模块 中 的 linalg.det | linalg 模块 包括 多 个 线性 代数 运算 方法 




















其 中 有 求 矩 阵 的 行列 式 的 值 























linalg.inv 和 linalg.eig 等 函数 (det)、 和 矩阵 的 道 (inv〉 以 及 矩阵 的 特征 值 和 














统计 和 数学 函数 


NumPy 提供 一 组 计算 数组 元 素 统计 信息 的 函数 。 聚 合 型 ; 











运算 ， 比 





特征 向 量 (eig) 





如 求 和 、 均 值 、 中 位 





数 和 标准 差 ， 可 通过 访问 数组 的 相应 属性 得 到 。 例 如 ， 随 机 选取 元 素 《〈 服 从 某 正 态 分 布 )， 
创建 一 个 数组 ， 我 们 可 以 用 以 下 两 种 方法 计算 数组 元 素 的 均值 : 









































QD np.dot(inv_matrix, matrix) 的 输出 结果 附 图 有 误 ， 应 为 : 





np.dot(inv matrix, matrix) 


array([[ 1.00000000e+00, -1.11022302e-16, -1.11022302e-16], 
[ 1.77635684e-15,  1.00000000e+00, -4.44089210e-16], 
[ -3.33066907e-15,  -4.44089210e-16, 1.00000000e+00]]) 


一 一 译 者 注 
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>>> arr 
>>> arr.mean () 
0.45808075801881332 
>>> np.mean (arr) 
0.45808075801881332 
>>> arr.sum() 
14.658584256602026 


np.random.rand(8, 4) 





所 有 这 一 类 函数 见 表 1.5。 
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表 1.5 
方法 用 途 
mean 各 元 素 的 均值 。 空 数组 ， 均 值 默认 为 NaN 
std. var 计算 数组 的 标准 差 Ctd) 和 方差 〈var)。 可 指定 自由 度 参数 〈 默 认为 数组 的 长 度 ) 
min、max 求 数组 最 小 值 (min) 和 最 大 值 (max) 
argmin, argmax 返回 最 小 Cargmin) 和 最 大 Cargmax) 元 素 的 索引 


1.2.2 ”理解 pandas 模块 

















qu} 





Python 的 pandas 模块 功能 强大 ， 包 含 大 量 用 于 分 析 数 据 
NumPy 库 。pandas 的 设计 初衷 是 降低 数据 分 析 操 作 的 难度 ， 
的 标准 函数 ，pandas 函数 性 能 更 高 ， 尤 其 擅长 文件 读 写 、 数 和 
处 理 的 最 佳 选 择 。 探 索 数据 所 包含 的 信 
操作 ， 下 面 儿 节 将 给 出 答案 。 我 们 先 讲 
方法 


YZ o 






































N 


E 


Pun 



























































eA HEE pandas 中 的 存储 














本 书 从 此 往 后 ， 我 们 都 用 如 下 语句 导入 pandas: 
import pandas as pd 


因此 ， 下 文 所 有 代码 ， 只 要 有 pd, 3448 pandas. 


1. 探索 数据 
我 们 先 介绍 pandas 只 有 一 维 的 数组 类 对 象 Series， 以 此 引入 pandas MAH 




















结构 的 函数 。 它 依赖 于 
提升 速度 。 比 起 Python 
EERE; pandas 是 数 
， 主 要 方法 有 哪些 以 及 如 何 用 pandas 进行 
乡 式 和 数据 的 加 载 


=] 


十 











E REA] 





DataFrame. Series 可 以 存储 NumPy 所 有 类 型 的 数据 ， 同 时 还 存储 数据 的 标签 一 一 索引 。 


我 们 来 看 一 个 简单 的 例子 : 
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In [8]: 
obj 


Out[8]: 


1 


0 
1 
2 -2 
3 
dtype: int64 





obj = pd.Series([3,5,-2,1]) 














obj XJ Kk 














性 获取 : 





In [9]: obj.values 


Out[9]: array([ 3, 5, -2, 
In [10]: obj.index 


Out[10]: 





Int64Index([0, 1, 2, 3], dtype-'int64') 


1]) 











NumPy 数组 运算 ， 索 引 会 予以 保留 《例如 标量 乘法 、 


























两 类 值 组 成 ， 右 侧 为 元 素 ,， 左 侧 为 元 素 对 应 的 索引 。 给 定 元 素数 组 的 长 度 为 
N， 索 引 则 默认 从 0 排 到 N-1. Series 的 元 素数 组 和 索引 对 象 ， 可 分 别 用 values 和 index 属 


























Python 字典 可 转换 为 Series 对 象 ， 但 是 


理 数 组 ): 
In [11]: bbj *2 
Out[11]: 0 6 
1 10 
2 -4 
3 2 
dtype: int64 
In [12]: obD[obj»2] 
Out[12]: 0 3 
1 5 
dtype: int64 























字典 的 键 被 转换 为 索引 : 











In [19]: 


Out[19]: 





data = sac 30, bs 707 65:05160, ds 5} 


obj = pd.Series(data) 


obj 

a 30 

b 70 

e 160 

d 5 
dtype: int64 


























也 可 以 用 单独 的 列表 作为 索引 : 
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In [20]: index = ['a','b','c','d','g'] 
obj = pd.Series(data, index=index) 
obj 
Out[20]: a 30 
b 70 
e 160 
d 5 
g NaN 
dtype: float64 





上 述 例子 , 最 后 一 个 索引 g,， 没 有 对 应 的 元 素 , 因此 pandas 默认 插入 NaN (Not a Number, 
非 数字 )。 

我 们 用 缺失 值 或 NAN 来 指 代 缺 失 的 数据 。 用 pandas 的 isnull 和 notnull 函数 ， 可 找 出 
缺失 值 : 









































In [16]: pd. isnull(obj)| 


Out[16]: a False 
b False 
c False 
d False 
dtype: bool 


In [17]: pd.notnull(obj) 


Out[17]: a True 
b True 
c True 
d True 
dtype: bool 














现在 ， 我 们 可 以 从 一 个 CSV 文件 导入 数据 到 DataFrame 结构 。DataFrame 这 种 数据 结 
构 ， 有 一 组 按 顺 序 排列 的 列 ， 每 一 列 可 以 是 不 同 的 数据 类 型 “数值 、 字 符 串 、 布 尔 值 等 )。 
DataFrame 有 两 种 索引 〈 行 、 列 索引 )。 我 们 也 可 以 将 DataFrame 看 成 一 个 由 Series 对 象 组 
成 的 字典 ， 每 个 Series 里 面 ， 所 有 元 素 的 索引 相同 〈 列 的 标题 )。 下 面 我 们 结合 ad.data 文件 中 
的 数据 进行 讲解 ， 该 数据 可 从 http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements 
下 载 。 在 前 面 机 器 学 习 的 例子 已 介绍 过 。 

在 终端 输入 以 下 代码 导入 数据 《该 例 中 ， 数 据 文 件 的 路 径 为 data example/ad-dataset/ 
ad.data”): 














































































































In [4]: data = pd.read_csv("data_example/ad-dataset/ad.data",header=None) 


该 文件 没有 标题 行 〈《 故 将 header 参数 设置 为 none)， 因 此 使 用 数字 作为 各 列 的 名 称 。 
































© 原 书 此 处 为 “ad-data”， 文 件 名 实际 为 “ad.data”。 一 一 译 者 注 
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在 data 对 象 上 调用 describe 函数 ， 可 得 到 DataFrame 的 各 种 总 描述 性 统计 信息 : 

































































In [5]: data.describe() 

Pp 4 5 6 7 8 9 10 11 12 13 
count |3279.000000 | 3279.000000| 3279.000000 | 3279.000000 | 3279. 000000 | 3279.000000 | 3279.000000 | 3279.000000 | 3279.000000 | 3279.000000 | ..| 
mean|0.004270 (0011589 |0.004575 [0.008365 [0.009965 |o.011580 [0.003355 0.004880 |ooo9149 [0.004575 
std (0.065212 [0.107042 [0.067491  |0.057831 + |0.062850  |0.107042  |0.057831  |0.069694 | 0.095227 |0.067491 
min |0.000000 {0.000000  |0.000000 0.000000 0.000000 [0.000000 [0.000000 [0.000000 0.000000 0.000000 
25% |0.000000  |0.000000  |0.000000  |0.000000 0.000000  |0.000000 [0.000000 [0.000000  |0.000000 _| 0.000000 
50% |0.000000 0.000000  |0.000000  |0.000000  |0.000000  |0000000 0.000000 0.000000 | 0.000000 _| 0.000000 
75% 0.000000 0.000000  |0.000000  |0.000000  |0.000000  |0.000000 [0.000000  |0.000000 [0.000000  |0.000000 
max |1.000000 1.000000  |1.000000  |:.000000  |1.000000  |1.000000  |1.000000  |1.000000  |1.000000 — |1.000000 
8 rows x 1554 columns 











上 面 总 结 了 几 种 定量 信息 。 由 此 可 见 ， 该 数据 集 总 共有 1554 个 数值 类 型 的 列 C 
标题 行 ， 列 的 名 称 月 
































因为 没 





数字 表示 )、3279 行 (对 每 一 列 调用 count 函数 )。 每 一 列 都 有 一 组 





统计 指标 (均值 、 标 准 差 、 最 小 值 、 最 大 值 和 分 位 数 ), 这 些 统计 数据 有 助 于 我 们 对 DataFrame 
中 数据 的 定量 信息 做 出 初步 估计 。 














用 columns 属性 可 获取 到 所 














了 列 的 名 称 : 














In [25]: hata.columns 


Out[25]: Inté4Index([ 0, 


1, 


2, 


3, 


4 


5, 


6, 7, 8, 


9, 


1549, 1550, 1551, 1552, 1553, 1554, 1555, 1556, 1557, 1558], 
dtype-'int64', length-1559) 








所 有 列 的 名 称 为 int64 类 型 ， 下 述 命令 返回 所 有 列 的 实际 数据 类 型 : 








In [26]: 


Out[26]: 


0 
1 
2 
3 
4 
5 


1557 
1558 


data.dtypes 


object 
object 
object 
object 
int64 
int64 


int64 
object 
dtype: object 








前 4 列 和 标签 列 〈 最 后 1 列 ) 为 object 





类 型 


ei FRAS 


第 1 种 ， 指 定 列 的 名 称 ， 与 指定 字典 的 键 相 似 : 


A 





为 int64 类 型 。 列 的 访问 方法 





In [6]: 


Out[6]: 





data[1] 

0 125 
1 468 
29 234 
3277 ? 
3278 40 
Name: 


1, dtype: object 








两 种 。 
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用 列表 形式 ， 指 定 多 个 列 名 称 ， 可 获取 到 多 列 : 














In [27]: | data[[1,20]] 





0ut[27]: 














3279 rows x 2 columns 





























另 一 种 访问 列 的 方法 是 点 号 句法 ， 这 只 有 在 列 名 称 也 是 Python 变量 (中 间 没 有 空格 )， 
没有 重 名 的 DataFrame 属性 或 函数 (比如 count 或 sum)， 并 且 列 名 称 还 必须 是 字符 串 类 型 
时 ， 才 能 使 用 该 方法 (该 例 中 ， 列 名 称 为 int64 类 型 ， 因 此 不 能 用 此 方法 )。 

若 想 对 DataFrame 中 的 内 容 有 一 个 大 致 的 了 解 ， 可 使 用 head0 函 数 。 它 默认 返回 一 列 
的 前 5 个 元 素 (或 DataFrame 的 前 5 行 ): 


































































































In [28]: dataj|l].head() 


Out[28]: 0 125 
1 468 
2 230 
3 468 
4 468 
Name: 1, dtype: object 














当然 也 可 以 用 tail0 函 数 ， 它 默认 返回 最 后 5 个 元 素 或 5 47. TE head() aX tail a Bc FIR 
定数 字 n， 将 返回 所 选 列 的 前 、 后 n 个 元 素 : 














In [29]: data|1j.head(10) 


Out[29]: 0 125 
1 468 
2 230 
3 468 
4 468 
5 468 
6 460 
7 234 
8 468 
9 468 
Name: 1, dtype: object 

















用 Python 的 标准 切片 句法 ， 也 可 以 从 DataFrame 中 获取 到 一 定数 量 的 行 : 
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In [7]: 


Out[7]: 


data[1:3]| 

















2 rows x 1559 columns 





上 述 代 码 仅 获取 到 DataFrame 的 前 两 行 〈 当 然 还 有 标题 )。 
2. 操作 数据 
行 的 选取 方法 有 多 种 ， 比 如 指定 索引 或 按 条 件 选 取 : 








In [31]: 


Out[31]: 


data[data[1]> 0].head(4) 














eojojo|-4 




















=à 
o 

o 
o 
o 
o 
o 
eo 
o 

o 
o 

o 





4 rows x 1559 columns 





按 多 个 条 件 选取 数据 : 








In [32]: 


Out[32]: 


data[(data[1]» 0) & (data[1558]=='ad.')].head(4) 





o j |2 3|4|s|e|7|8|9|... |1549 |1550 |1551 |1552 二 三 1555 | 1556 | 1557 | 1558 | 


1[ojo[o[o o|o|.. p E o |o E o |o |o 





0 |125| 125 |1.0 


als feoleseoo DOCE e lo oo fo oo NN CN 








sleo |jee|rs llolololololollo [o lo [o lo [o lo jo [o jw | 


4 rows x 1559 columns 








上 面 返回 的 数据 为 特征 1 大 于 0 且 包 含 广告 的 网 页 。 





ix 方法 通 ; 


过 指定 索引 来 选择 相应 的 行 : 





Out[33]: 





In [33]: 


data.ix[:3] 








0/125} 125] 1.0 1/[0/0/|0/|0/0/0]. 
1|57 |468|8.2105|1|0/|0|0/|0|0/0]. 








4 rows x 1559 columns 





此 外 ， 也 可 以 使 用 iloc 函数 : 
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In [34]: hata.iloc[:3] 














9:017: | lo fa f2 — [a|a|s|e|v|a o... | 1549] 1550 | 1651 | 1552| 1552 | 1554 | 1555 | 1556 | 1557 | 1558 
ol12s|12s|1.0 |tlolololololol.lo |o |o |o |o |o [|o fo jo ja. 
1/57 |468|8.2105|1|olololololo|lo |o |o lo |o lo [|o jo jo ja. 
2/33 [aso|esese|1|olo|o]olo|o|..o |o |o |o |o |o |o |o lo ja. 




















3 rows x 1559 columns 








ix 和 iloc 的 不 同 点 在 于 ，ix 操作 的 是 索引 列 标签 的 名 称 ， 而 iloc 操作 的 是 索引 的 位 置 





(因此 它 已 只 H 
函数 返回 
索引 列 的 标签 名 








能 接收 整数 )。 
DataFrame 的 前 3 行 。 访 问 DataFrame 内 部 数据 ， 还 
返回 相应 的 行 ?。 例 如 : 





因此 ， 上 述 例 子 ，ix 


一 直 找 到 标签 





3 出 现 为 止 ( 共 

















447), T iloc 


个 函数 叫 作 loc, CAR 



































In [35]: data.loc[:3] 

hae | lo. [4 3 |4|s |e|7|a|o |... | 1549 | 1550 | 1551 | 1552|1553| 1554 | 1555 | 1556 | 1567 | 1558 
o|ves|tes|to |1lolololololol..lo |o lo fo lo lo lo lo fo je 
1|sz |468|8.210s|1|olololololo|llo lo |o lo fo |o lo |o lo ja. 
2|38 |230|6.9696|1|olololololo|..lo |o lo lo lo |o lo lo lo ja. 
sjeo (468|7.8 |1Jolololojolo|..jo |o |o lo lo jo lo lo lo la 
4 rows x 1559 columns 


























他 操作 。 





该 函数 与 Python 的 标准 切片 方法 不 同 ， 
出 结果 包含 索引 为 3 WT 
其 


DataFrame 对 象 的 一 


整 列 可 设置 








因为 结果 包括 起 始 和 结束 位 置 的 行 〈 该 例 





为 同一 个 值 : 























In [36]: 





data[1547] 


= 0 








也 可 以 将 指定 的 单元 格 设置 为 我 们 想 要 的 值 : 








in [37 





]: data.ix[3,1]=0 








或 将 整 行 设置 为 

















AME GABLE 


























随机 数 0 或 1 Al ad. 标签 )。 





In [38]: 


jimport random 
data.ix[0] 


= [random.randint(0,1) 


for r in xrange(1558)]*['ad.'] 





数组 转换 为 Series 对 象 后 ， 可 作为 新 的 


一 行 追加 到 DataFrame 的 末尾 : 








In [40]: 





row = [random.randint(0,1) for r hn xrange(1558)]*['ad.'] 
data = data.append(pd.Series(row,index = data.columns),ignore_index=True) 








用 loc 函数 可 在 DataFrame 最 后 增加 一 行 : 








@ loc WHE, WREKE, ME RERET ER EIE FIL £T 
4573 label 的 行 。label 既 可 以 是 数字 也 可 以 是 全 


z i cH 


符 串 。 











译 者 注 





能 获取 到 。 


如 果 是 loc[label]， 则 只 能 获取 


到 标 
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In [70]: data.loc[len(data)] = row 














3 


追加 列 则 非常 简单 ， 将 元 素 赋 给 DataFrame 新 的 列 即 可 : 








data.columns 


Out[41]: Index([ 


dtype= 





In [41]: data['newcolumn'] = ‘test value’ 


0, 1, 2, 3, 4, 

5, 6, 7, 8, 9, 
1550, 1551, 1552, 1553, 1554, 
1555, 1556, 1557, 1558, u'newcolumn'], 


'object', length-1560) 


























上 述 例子 ， 新 增 的 列 所 有 元 素 的 值 为 test value. IERI, 





可 用 drop 函数 : 





Out[56]: Index([ 0, 


1549, 





In [56]: data - data.drop('newcolumn', 1) 
data.columns 


1, 2, 3, 4, 5, 6, 7, 8, 


1550, 1551, 1552, 1553, 1554, 1555, 1556, 1557, 


dtype-'object', length-1559) 


9, 


1558], 








出 于 多 种 原因 ， 数 据 集 也 许 包含 











D» 








是 对 其 他 行 的 重复 : 





limi 











Hi js. pandas 的 duplicated 方法 可 判断 每 一 行 是 





In [42]: 


Out[42]: 





Hata.duplicated() 
0 False 
1 False 
2 False 
3 False 
4 False 


3279 False 
dtype: bool 











drop duplicates 函数 比 duplicated 函数 更 强大 ， 它 返回 的 DataFrame UBL f KETER 
余 的 所 有 元 素 。 例 如 ， 使 用 该 函数 ， 我 们 可 以 找 出 标签 这 一 列 两 个 不 同 的 元 素 是 : 








In [43]: 


Out[43]: 





data[1558].drop duplicates() 


0 ad. 
459 nonad. 
Name: 1558, dtype: object 




















我 们 还 可 以 方便 地 将 上 述 结 果 转 换 为 列表 : 








In [44]: 


Out[44]: 





data[1558].drop duplicates().tolist() 


['ad.', 'nonad.'] 








FATA UAE AE PERRA, BU TED Ln 2 21 os lA 














过 这 种 方法 : 
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In [46]: 





adindices = data[data .columns[-1]]== 'ad.' 
data.loc[adindices,data .columns[-1]]-1 
nonadindices = data[data .columns[-1]]--'nonad."' 
data.loc[nonadindices,data .columns[-1] ]=0 








标签 列 仍然 为 object 2578: 





In [47]: data[1558].dtypes 


Out[47]: dtype('O') 











然后 ， 我 们 可 以 将 标签 列 转换 为 浮 点 型 : 











In [63]: Bata[data.columns[-1]]-data[data.columns[-1]].astype(float) 














前 4 列 包含 不 同类 型 的 数据 (字符 串 、? 和 浮 点 型 数字 )。 我 们 删除 字符 串 类 型 的 元 素 
后 ， 才 能 将 各 列 元 素 转换 为 数值 型 。 我 们 可 以 用 replace RBC ATA HIS] CRA) Er 


换 为 NaN: 





























In [71]: 





data-data.replace(('?': np.nan}) 
data-data.replace((' ?': np.nan}) 





data=data.replace({'‘ ?': np.nan}) 
data=data.replace({' P's np.nan}) 
data=data.replace({' ?'s np.nan}) 

















现在 ， 我 们 可 以 用 两 种 方法 处 理 包 含 缺 失 值 的 行 。 方 法 一 ， 用 dropna 方法 直接 删除 包 











含 缺失 值 的 行 : 























In [73]: data=hata.dropna() 


方法 二 ， 包 含 缺 失 数据 的 行 ， 除 了 直接 将 其 删除 〈 可 能 删除 重要 信息 ) 外 ， 也 可 为 其 
填充 数据 。 用 包 lna 方法 ， 向 这 些 空 的 单元 格 填充 一 个 常量 ， 可 满足 大 多 数 需求 ; 




































































In [74]: data=data.fillna(-1) 








经 过 以 上 处 理 ， 




















所 有 列 的 各 元 素 均 为 数值 型 , 因此 可 用 astype 函数 将 其 设置 为 float 型 。 




















此 外 ， 我 们 还 可 以 








] lambda 函数 ， 将 DataFrame 的 每 一 列 转换 为 数值 类 型 %. 








In [82]: Hata-data.apply (lambda x: pd.to_numeric(x) ) 








ERRE, FA x 实例 表示 一 列 ，to_numeric 函数 将 每 一 类 的 元 素 转换 为 最 相近 的 数 
据 类 型 (该 例 为 float)。 























© 若 DataFrame 存在 非 数 值 型 元 素 ， 转 换 时 会 报错 。pandas 0.17 及 以 上 版 本 ， 可 使 用 dfl = df.apply(pd.to_numeric, errors='coerce) 


语句 ， 或 提前 处 理 非 数 值 型 


元 素 。 一 一 译 者 注 
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pandas 教程 的 最 后 ， 我 们 想 演示 下 如 何 拼接 两 个 DataFrame 对 象 ， 因 为 在 真实 应 用 场 














景 ， 可 能 会 用 到 这 项 操作 。 我 们 随机 选取 元 素 ， 











再 创建 一 个 小 型 的 DataFrame: 








In [83]: datal = pd.DataFrame(columns=[i for i in xrange(1559)]) 
datal.loc[len(datal)] = (random.randint(0,1) for r in xrange(1558)]*[1] 
datal.loc[len(datal)] = [random.randint(0,1) for r in xrange(1558)]+[1] 








述 代码 生成 一 个 包括 两 行 数据 的 新 表格 。 





DataFrame 中 ， 将 datal 的 各 行 拼接 到 data AY F TE 





























我 们 可 以 用 concat 函数 ， 将 其 合并 到 原 





























In [85]: print len(data) 
datatot = pd.concat([data[:],data 
len(datatot) 


2362 


Out[85]: 2364 





1[:]]) 








执行 上 述 操 作 后 , 我 们 会 发 现 datatot EG data 增加 了 两 行 (注意 data 的 行 数 与 刚 开始 的 
不 同 ， 因 为 我 们 后 来 删除 了 它 含有 NaN 元 素 的 行 )。 








1.23 matplotlib 教程 





matplotlib.pyplot 库 ， 类 似 于 MATLAB， 提 供 多 种 将 数据 绘制 成 图 的 方法 。 由 于 后 续 章 
节 的 一 些 数据 分 析 结 果 要 用 它 实现 可 视 化 ， 因 此 我 们 有 必要 用 一 个 简短 的 例子 ， 解 释 后 面 
































即将 用 到 的 所 有 matplotlib 代码 : 























In [1]: import matplotlib.pyplot as plt 


plt.ylabel('y',fontsize-40) 
plt.xlabel('x',fontsize-40) 
plt.axis([0,3, 0,15]) 
plt.show() 


In [5]: fig = plt.figure(figsize-(10,10)) 
ax = fig.add subplot(111) 
ax.set xlabel('x',fontsize-40) 
ax.set ylabel('y',fontsize-40) 


ax.plot([10,5,2,4],color='green', 
fig.savefig('figure.png') 





In [2]: plt.plot([10,5,2,4],color-'green', 


fig.suptitle( 'figure',fontsize-40) 


label-'line 1', linewidth-5) 


label='line 1', linewidth=5) 








导入 该 库 之 后 (导入 为 plt)， 初 始 化 figure TR Cig), YSN axis WAR (ax)。 每 条 
线 是 通过 ax.plot0 命 令 绘 制 到 ax 对 象 之 中 ， 每 条 线 称 为 句柄 〈handle)。 然 后 ， 









































matplotlib.pyplot 记录 下 面 所 有 指令 ， 并 将 


其 绘制 到 figure 对 象 之 中 。 该 例 中 ， 用 











plt. E 终端 显示 绿色 折线 ， 




















文件 。 运 行 结果 见 图 1.1。 


接 下 来 这 个 例子 讲解 如 何 用 一 条 命令 绘制 
组 ， 见 图 1.2。 





样 











] fig.savefig() 函 数 将 其 保存 为 figure.png 





式 不 同 的 多 条 曲线 ， 我 们 用 到 了 NumPy 2 

















1.2 
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figure 
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In [8]: 


import numpy as np 

fig = plt.figure(figsize=(10,10)) 

ax = fig.add_subplot(111) 

r = np.arange(0., 10., 0.3) 

pl, = ax.plot(r, r, 'r--',label-'line 1', linewidth=10) 

p2, = ax.plot(r, r**0.5, 'bs',label-'line 2', linewidth=10) 
p3, = ax.plot(r,np.sin(r),'g^', label='line 3', markersize=10) 
handles, labels = ax.get legend handles labels() 
ax.legend(handles, labels,fontsize-40) 

ax.set xlabel('x',fontsize-40) 

ax.set ylabel('y',fontsize-40) 

fig.suptitle('figure 1',fontsize=40) 

fig.savefig('figure multiplelines.png') 








figure 1 



































12 多 序列 曲线 








D 











表示 例 














34 15 13 Python 机 器 学 习 实 践 入 门 


注意 上 述 代码 中 的 get legend handles labels() 函数 ， 返 回 存储 在 ax 对 象 中 的 句柄 列 
表 和 标签 ,我 们 需要 将 这 两 项 返回 结果 传 给 legend 函数 完成 绘图 。 



































用 来 设置 线条 的 密度 ，markersize 用 来 设置 点 的 大 小 。 
数据 分 析 结 果 ， 男 一 种 常用 的 可 视 化 方法 是 散 点 图 
的 不 同 取 值 情况 (我 们 用 NumPy 的 random 子 模块 生成 这 















































zen = e 


fi re 


指 的 是 数据 点 的 形状 和 颜色 〈 分 别 表示 红色 矩形 、 蓝 色 方 形 和 绿色 三 角形 ) 














x 














通常 用 来 显示 
的 一 组 数据 )。 


” “bs ” 和 “gh” 
> linewidth 参数 


组 数据 两 个 变量 





In [10]: folors = ['b', 'c', 'y' z'] 
fig = plt. Baers S 10)) 
ax = fig.add_subplot(111) 


ax.set xlabel('x',fontsize-40) 
ax.set ylabel(' y' ,fontsize-40) 
fig.savefig('figure scatterplot.png') 





ax.scatter(np.random.random(10), np.random.random(10), marker='x', 
pl = ax.scatter(np.random.random(10), np.random.random(10), marker=' 
p2 = ax.scatter(np.random.random(10), np.random.random(10), marker-'o', 
p3 = ax.scatter(np.random.random(10), np.random.random(10), marker-'o', 
ax.legend((pl,p2,p3),('points 1','points 2','points 3'),fontsize-20) 


colorscolors[0]) 

x', colorecolors[0],s*50) 
color*colors[1],8750) 
color-colors[2],8750) 














ERRE, s 选项 表示 数据 点 的 大 小 ，colors 选项 为 每 组 数据 点 的 颜色 。 我 们 直接 将 句 





柄 (p1.p2,p3) 传 给 legend 函数 ， 见 图 1.3。 
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图 1.3 ”由 随机 分 布 的 数据 点 构成 的 散 点 医 


关于 matplotlib 库 的 更 多 细节 , 我 们 建议 大 家 读 一 读 网 上 的 相关 材料 和 教程 ， 
官方 提供 的 这 份 教程 : http://matplotlib.org/users/pyplot_tutorial.html。 

















比如 他 们 
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1.3 本 书 使 用 的 科学 计算 库 


BELA Pi 


























SciPy 库 是 基本 





解 的 机 器 学 习 技 术 , 有 一 些 库 是 必要 的 。 我 们 
NumPy 数组 对 象 开 发 的 一 系列 数学 运算 方法 。 作 为 开源 项 目 ， 它 得 














以 充分 利用 世界 各 地 的 开发 者 不 断 纺 





























写 出 来 的 新 方法 。 




















简要 介绍 





后 续 最 常用 的 几 个 库 。 



































] SciPy 封装 的 通用 方法 开 


发 的 Python 软件 ， 作 为 高 级 项 目 或 应 用 的 一 部 分 ， 足 以 与 MATLAB, Octave 或 























RLab 相 媲 美 。SciPy 提供 




















应 有 尽 有 ， 它 使 得 Python 语言 更 加 丰富 、 更 
玫 言 实现 的 开源 机 器 学 习 模 块 。 它 实现 了 到 类 、 




















scikit-learn ( sklearn ) 是 





了 多 种 方法 ， 数 

















] Python i 





和 潜力。 




















类 和 


H 


归 等 多 种 不 同 的 机 器 学 习 























四 操作 、 数 据 可 视 化 和 # 











行 计算 等 方法 





分 


法 , 其 中 包括 支持 向 量 机 、 朴 素 贝 叶 斯 、 决 策 树 、 


随机 森林 大 均值 .基于 密度 带 噪声 的 空间 聚 类 应 用 算法 (DBSCAN)。 该 库 和 Python 











的 NumPy、SciPy 等 数学 计 


Python 实现 的 ， 但 为 了 提升 性 
机 和 对 数 几 率 回 归 ” 就 是 用 Cython 4 





LIBLINEAR) 做 了 封装 。 
































写 的 ， 它 们 对 其 

















库 可 通过 原生 接口 对 接 。 虽 然 该 库 的 大 多 数 方法 是 用 
能 ， 有 些 函 数 是 用 Cython 实现 的 。 例 如 ， 支 持 向 量 
他 几 个 外 部 库 CLIBSVM, 
































自然 语言 处 理工 具 集 (NLTK) 包含 一 系列 自然 语言 处 理 (NLP) 库 和 函数 。NLIK 





的 设计 初衷 是 为 NLP 和 相关 主题 的 研究 、 教 学 提供 

















认 知 科学 、 信 息 检索 、 语言 学 和 机 器 学 习 。 它 还 有 一 个 特 1 
函数 ， 可 实现 分 词 (tokenization )、 所 有 
分 析 (parsing)、 语 义 推 理 (semantic reasoning) 和 分 类 功能 。NLTK 还 提供 





支持 。 这 些 主题 有 人 工 智能 、 


















































码 和 数据 ， 可 接 入 50 多 


Scrapy 是 用 Python 实现 的 天 
JE, "EUER 
(spider) 功能 ， 蜂 蛛 的 行为 通过 一 组 指令 来 控 






































计 的 ， 
Hei 


旦 是 作为 通 











语料库 和 词汇 数据 库 。 


F 源 Web JEE (crawler) 框架 。 它 最 初 是 为 网 站 抓 取 设 
H API 抽取 数据 。Scrapy 项 



































Web 抓 


取 shell， 开 发 人 员 在 乡 












































Django 是 用 Python 实现 的 开源 Web 应 用 框架 ， 





© logistic regression， 大 抵 有 几 种 译 法 : 逻辑 回归 、 轴 辑 斯 带 回归 、 届 辑 斯 蒂 克 回归 、 对 数 几 率 
取 对 数 几 率 回 归 。 


Scrapinghub Ltd. 公 司 负责 ， 这 是 一 家 提供 

































































译 者 注 

















遵从 模型 - 视 


色 是 提供 


Nim] (stemming). bi 








系列 文本 处 理 
E〈tagging)、 人 句法 
示例 代 












































意 在 实现 网 








B. Mo Rev 
ij 码 实现 概念 之 前 ， 可 先 用 shell 做 测试 。Scrapy 如 今 
Web 抓 取 技 术 的 开发 和 服务 的 公司 。 











图 -控制 器 Cmodel- 

















归 ， 还 有 干脆 不 译 的 。 这 里 
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view-controller) 架构 模式 。Django 的 设计 初衷 是 














站 。 开 发 人 员 可 通过 它 提 供 














创建 功能 复杂 、 由 


数据 库 驱动 的 网 



































或 更 新 应 用 所 使 用 的 数 














的 管理 界面 管理 应 用 。 











在 管理 界面 可 创建 、 





读 取 、 删 除 





居 。 当 前 , 一些 知名 网 站 是 用 Django 驱动 的 ， 比 如 Pinterest, 


Instagram, Mozilla, The Washington Times 〈《 华 盛 顿 邮 报 》 官 网 ) 和 Bitbucket. 


1.4 机 器 学 习 的 应 用 场景 





机 器 学 习 也 并 不 是 魔法 ， 不 是 所 有 与 数据 相关 的 问题 都 能 受益 于 它 ， 






























































规则 














。 解决 方案 无 法 扩展 : 人 工 根 据 特定 数据 做 H 
好 的 扩展 性 。 例如， 机 器 学 习 算 法 可 以 高 效 地 遍历 百 万 封 邮 件 ， 判 








圾 邮件 。 


然而 ， 如 果 仪 用 数学 规则 、 计 算 或 预先 确定 的 模式 就 能 做 到 准确 预测 ， 关 

















讲 清楚 机 器 学 习 技术 的 最 佳 应 月 


I 不 可 能 用 编码 实现 ; 一 些 需 要 由 人 完成 的 任务 (例如 ,判断 邮 
无 法 有 效 地 用 简单 的 规则 来 实现 。 实 阿 
依赖 于 大 量 因 素 ， 人 工 实现 这 些 规则 非常 困难 。 


8 决策 非常 耗 时 ,但 机 器 学 习 技 术 却 有 很 





场景 非常 有 必要 。 














RL, ZPA 








z& HJ 

















因此 在 入 门 章节 





























件 是 否 是 垃圾 邮 














能 影响 其 解决 方案 ， 如 









































断 它 们 是 不 是 垃 



































F 且 实现 这 些 方法 





无 须 用 机 器 驱动 的 学 习 技术 ， 那 么 你 就 没 必要 使 用 高 级 机 器 学 习 技 术 〈 你 也 不 应 该 使 用 )。 


小 结 


1.5 





在 本 章 中 ， 我 们 介绍 了 基本 的 机 器 学 习 概 念 和 术语 ， 这 些 知识 是 后 续 














们 还 介绍 了 机 器 学 习 专 业 人 了 





Ew 


ERN. Ab BEB A SK I BH 











章节 的 基础 。 我 


中 可 视 化 最 常用 的 几 个 库 


(NumPy、pandas 和 matplotlib )。 此 外 ， 后 面 要 用 到 的 其 他 几 个 Python 库 ， 我 们 也 一 并 做 


了 简要 介绍 。 


wr. 


学 完 这 一 章 ， 











处 理 方法 ， 能 够 将 数据 转换 为 机 器 学 习 
主要 的 无 监督 学 习 算法 以 及 如 何 月 


















































i HY Ah 











你 应 该 大 体 了 解 了 机 器 学 习 技 术 的 实际 用 途 。 你 应 该 熟悉 了 常用 的 数据 
的 格式 。 下 一 章 ， 我 们 来 向 大 家 解释 
H sklearn 库 实 现 它们 。 





第 2 章 
监督 机 器 学 习 














第 1 章 已 介绍 过 , 无 监督 学 习 的 目的 是 从 未 标记 数据 发 现 富 有 洞察 力 的 信息 。 大 型 
数据 集 (指数 据点 和 特征 的 数量 都 很 多 ) 往往 缺乏 内 在 结构 (我们 称 其 为 “ 非 结构 化 ”)， 
乍 一 眼看 上 去 很 难看 出 任何 信息 。 过 到 这 种 情况 ， 就 要 用 无 监督 机 器 学 习 技术 ， 突显 隐 
藏 在 数据 中 的 内 在 结构 〈 聚 类 )， 或 在 不 丢失 相关 信息 的 前 提 下 降低 数据 的 复杂 度 〈 降 
维 )。 本 章 重 点 介绍 主要 聚 类 算法 〈 第 1 部 分 ) 和 降 维 方法 〈 第 2 部 分 )。 它 们 的 不 同 点 
和 各 自 的 优点 , 我 们 会 用 实际 的 例子 加 以 说 明 。 实现 这 些 例子 要 用 到 Python 的 几 个 科学 
计算 库 。 所 有 代码 均 可 从 我 的 GitHub 主页 下 载 ， 地 址 是 https://github.com/ai2010/machine_ 
learning for the web/tree/master/chapter 2/。 现 在 我 们 开始 讲 聚 类 算法 。 





































































































2.1 RRA 





RRE (clustering algorithm), Zu ZA AN RIZ NE NE CR. 
cluster), VASE J otis HED HUE ROB ZA. ALTRI D Be Ey BL a RAE 
的 数据 点 。 量 化 数据 点 之 间 相 似 度 的 方法 ， 决 定 着 聚 类 算法 的 种 类 。 

根据 处 理 数据 时 所 使 用 的 度量 方法 或 做 出 的 假设 , 我 们 可 将 聚 类 算法 分 成 不 同 的 种 类 。 
接 下 来 讨论 时 下 最 常用 的 几 大 方法 : 分 布 方 法 、 质 心 点 方法 、 密 度 方法 和 层次 方法 
(hierarchical methods). 聚 类 方法 ， 我 们 都 会 详细 讲解 它 的 一 种 算法 实现 。 我 们 首先 讨 
论 分 布 方法 。 后 面 我 们 将 通过 实际 的 例子 比较 不 同 算法 的 性 能 。 本 章 代 码 的 [Python 
notebook 版 本 和 纯 Python 代码 版 本 ， 都 已 放 到 我 的 GitHub 主页 该 书 的 文件 夹 下 ， 详 见 
https://github.com/ai2010/machine_learning for the web/tree/master/chapter 2/. 
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2.1.1 分 布 方法 


这 类 方法 假定 数据 来 自 某 种 分 布 ， 并 用 最 大 期 望 算法 寻找 分 布 参数 的 最 优 参 数值 。 下 
面 我 们 讨论 最 大 期 望 算 法 和 高 斯 混合 聚 类 (Gaussian clustering). 
1. 最 大 期 望 算法 


最 大 期 望 算 法 (expectation maximization)， 是 用 于 寻找 参数 分 布 模型 的 最 大 似 然 估 计 ， 
分 布 模型 依赖 于 隐 变 量 ”( 变 量 的 值 无 法 观测 到 )。 最 大 期 望 算法 的 每 次 迭代 包括 两 个 步 又 : 
期 望 步 (E-step )， 用 参数 的 当前 值 构造 对 数 似 然 函 数 Clog-likelihood function); 最 大 化 步 
(M-step)， 计 算得 到 使 EE 步 对 数 似 然 度 最 大 的 新 参数 值 。 


给 定 一 个 由 N 个 元 素 组 成 的 数据 集 {zo} i = 1, …N， 其 对 数 似 然 度 为 ; 
1(O) = > logp(zo:g) y logy pix? .20:38) 


其 中 ，0 为 分 布 的 参数 ，z" 表示 所 谓 的 隐 变 量 。 


我 们 希望 在 不 知道 z” (无 法 观测 的 变量 ) 取 值 的 情况 下 ,找到 最 大 化 对 数 似 然 度 的 参 
数值 。 假 定 我 们 有 一 种 2” 上 的 分 布 ， 和 z" 的 概率 密度 函数 Q(z )， Le (z?)-1. AT: 


























































































































































































































p [x z? ; 8) 
p0) 


上 式 中 的 ocz? ) 为 隐 变 量 2 在 x? 发 生 这 一 前 提 下 的 后 验 概率 ， 以 0 为 参数 。 最 大 期 
望 算法 用 到 了 Jensen 不 等 式 ， 它 确保 执行 以 下 两 步 : 


ipf =p {2 eoe 
p(x D, z®. ;0) 
25» 2fz Vlog 
7^ o(z^) 
对 数 似 然 函 数 收 敛 ， 得 到 最 大 对 数 似 然 度 ， 这 时 对 应 的 0 就 是 我 们 想 求 的 。 
2. 高 斯 混合 聚 类 算法 
高 斯 混合 聚 类 算法 (Mixture of Gaussians), 用 混合 的 多 个 高 斯 分 布 来 模拟 整个 数据 集 。 





2(zo)= = p(z® 





269) 
























































CD 隐 变 量 在 英文 中 称 为 hidden variable 或 latent variable. —— VE iE 
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— BH 


而 ， 簇 的 数量 由 模型 所 包含 的 高 斯 分 布 的 数量 来 决定 。 给 定 由 N 个 元 素 组 成 的 数据 集 
xO, i=l, N, EPEA x e R 为 高 斯 混合 模型 中 一 个 由 4 个 特征 组 成 的 向 量 ， 并 且 ; 


pix? 71,2) 2 Yoox z k) p(z” ES kg) E Y p(x” 
k=l k=l 























1; 24) 

















。 20 EL, K HERE, KRYA x 是 由 哪个 高 斯 成 分 〈Gaussian component) Æ 
REY w= (1, ug } 为 各 高 斯 成 分 的 均值 参数 。 


e E=, x} 为 各 高 斯 成 分 的 方差 参数 。 





。 办 为 混合 权重 "， 表 示 随 机 选取 的 x 中 由 高 斯 成 分 生成 的 概率 ， se =l; 











人 { 有 四， 关 } 为 各 权重 的 集合 。 





1 Tato y y " xu = ep Lt i 、 
. P(x? aZ.) = c am sire EL ^ 表示 每 个 数据 点 x 中 对 应 的 以 Cj4 E, ) 
k 


为 参数 的 高 斯 成 分 
高 斯 混合 模型 的 参数 有 #、 人 和 三。 为 了 估计 这 些 参数 ， 我 们 可 以 将 数据 集 的 对 数 似 然 
函数 写 为 : 

Ig. H, 7)= ¥ sl (x  |z,2))= > log> p (x Oaa =k) p(z” - kg) 


我 们 采用 前 一 节 讲 的 最 大 期 望 算 法 寻找 参数 值 ， 参 数 的 对 应 关系 为 OF (u, E). 
Oz" Fp(z ,). 
参数 的 初始 值 我 们 不 知道 ， 只 好 先 用 猜测 的 值 ， 然 后 迭代 以 下 步骤 直到 收敛 。 


(1) 期 望 步 : 根据 贝 叶 斯 定理 计算 O 的 后 验 概率 , 更 新 权重 W?” = p(2 = kx 9,2,2): 
后 验 概率 计算 方法 如 下 : 


p(2 =k = 
























































































































































xb, p, X 引 = = 









































(2) 最 大 化 步 : 将 参数 更 新 为 如 下 形式 〈 下 面 3 个 式 子 是 通过 求 最 大 值得 到 的 ， 上 其 体 











© 混合 权重 ， 原 文 为 “mixture weight”。 周 志 华 老师 的 《机 器 学 习 》207 页 将 其 称 作 “mixture coefficient”， 译 为 “混合 系数 ”。 
译 者 注 
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方法 是 令 似 然 函 数 的 导数 为 0， 分 别 对 jy、 三 和 g 求 偏 * 





ar 


(1 


SN 





En 























注意 ， 由 于 隐 变 量 z? 未 知 ， 























督学 习 问 题 ，z” 则 表示 训练 集 每 个 数据 点 的 标签 (并 且 使 用 的 有 监督 算法 将 会 是 高 























分 析 ")。 因 而 ， 高 斯 混合 聚 类 是 无 监督 
应 的 个 高 斯 成 分 ,事实 上 ,通过 计算 个 类 别 每 个 类 别 的 后 验 概率 p(z? =k 
我 们 可 以 将 每 个 x 划分 到 后 验 概率 最 高 的 类 别 


数据 聚 类 〈 或 标记 数据 ) 任务 。 


























因此 需要 使 用 最 大 期 望 算法 。 


否则 ， 这 个 问题 就 变 为 有 监 





























我 们 举 个 实际 的 例子 ， 来 说 明 高 斯 混合 聚 类 外 
拿 到 了 两 个 班 的 成 绩 ， 但 是 没有 标 H 


























想 将 成 绩 按 班级 分 开 ， 这 时 就 可 以 用 高 














了 一 组 身高 数据 ， 假 定 每 个 国家 人 口 











判断 他 们 来 
2.1.2 质心 点 方法 


自 哪 个 国家 ， 这 个 问题 可 用 




















ik 























质心 点 方法 Ccentroid methods) 






































斯 判别 








法 ， 其 目标 是 找到 z0 ， 也 就 是 每 个 数据 点 xm 对 
















































































xd, 71,2) , 

P. 在 一 些 应 用 场景 中 ， 该 算法 能 够 胜任 

法 可 能 的 应 用 场景 有 哪些 。 比 如 ， 教 授 

学 生 的 班级 。 假 定 每 个 班 的 成 绩 都 服从 高 斯 分 布 ， 他 
斯 混合 聚 类 。 再 举 一 个 例子 ， 我 们 从 两 个 国家 采集 























的 身高 都 服从 高 斯 分 布 ， 如 何 根据 每 个 人 的 身高 数据 
法 来 解决 。 


] 到 以 下 技术 : 寻找 各 艇 的 中 心 ， 将 数据 点 划分 到 离 它 最 近 











的 侯 ， 最 小 化 复 的 质心 点 和 被 划 归 到 该 徐 的 数据 点 之 间 的 距离 。 这 是 一 个 最 优化 问题 ， 最 后 得 到 

















的 质心 点 为 向 量 ， 它 们 也 许 不 是 原 数 和 
需要 为 其 指定 一 个 初始 值 。 





























(D 英文 为 “Gaussian discriminant analysis” 


。 一 一 译 者 注 





BRIBE Ki o 























该 类 聚 类 方法 ， 簇 的 数量 是 待 估 参 数 ， 我 们 
该 类 方法 最 终生 成 的 各 个 艇 ,它们 的 大 小 通常 差不多 ， 这样 也 就 没 必 
要 精确 界定 各 簇 之 间 的 边界 。 这 个 最 优化 问题 可 能 会 得 到 
的 簇 会 有 轻微 的 不 同 。 最 常用 的 质心 点 聚 类 方法 为 上 均值 算法 (Lloyd 








局 部 最 优 解 ， 这 表明 初始 值 不 同 ,得 到 
法 )， 其 距离 度量 方法 
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为 欧 几 里 得 范 数 〈Euclidean norm), Ee Mei. HABIE ORNE, RES 
的 中 值 Ce 中 值 聚 类 ) 或 强制 使 用 实际 存在 的 数据 点 作为 质心 点 。 进 一 步 讲 ， 这 些 方法 还 有 一 些 
变种 ， 它 们 的 区 别 在 于 最 初 质心 点 的 定义 方式 (均值 ++? 或 模糊 c 均值 ) 不 同 。 


k 均值 算法 


该 算法 尝试 根据 每 个 簇 数 据点 之 间 的 平均 距离 寻找 质心 点 ， 使 被 划 归 到 各 簇 的 数据 点 
到 质心 点 之 间 的 距离 最 小 。 我 们 可 将 其 与 解决 分 类 问题 的 近邻 算法 对 照 来 看 ， 两 者 之 间 
存在 联系 。 聚 类 的 结果 可 以 表示 为 维 诺 图 。(Voronoi diagram, 一 种 根据 距离 一 组 点 的 远近 ， 
比如 我 们 这 里 各 簇 的 质心 点 ,将 空间 划分 为 不 同 区 域 的 方法 )。 给 定数 据 集 {x},i El N, 
该 算法 要 求 预先 选择 一 组 质心 点 K。 我 们 将 每 个 簇 各 数据 点 到 质心 点 (距离 ) 的 均值 表示 
Kuo JELK, Ay SAP RES. a, ERA FERE SISA 


CD 对 于 每 一 个 数据 点 六 计算; 跟 每 个 质心 点 / 之 间 的 欧 氏 距离 ， 寻 找 质心 点 索引 dp 
使 得 每 个 数据 点 和 质心 点 之 间 的 距离 最 小 化 : |A -x° j ELK. 


(2) 对 于 每 一 个 质心 点 j， 重 新 计算 dij 等 于 j 的 这 些 数据 点 (数据 点 属于 均值 为 yw 
He) 到 质心 点 距离 的 均值 : 




































































































































































易 知 该 算法 收敛 于 以 下 函数 : 
F= Yo ET 


BE IS RAY OT, PRC VADER UR. BYR F ZgdbshERS o FCS RIERA TS Bl 
小 值 为 全 局 最 小 值 。 为 了 避免 聚 类 结果 为 局 部 最 小 值 ， 我 们 通常 随机 选取 不 同 的 初始 均值 


多 运行 几 次 算法 。 然 后 ， 从 中 选取 使 得 FF 函数 值 较 小 的 那 一 种 作为 解决 方案 。 
2.1.3 ”密度 方法 


密度 方法 (density methods) 所 依据 的 思想 是 ， 数 据点 稀疏 的 区 域 通常 被 视 为 不 同 复 之 
间 的 边界 〈 或 噪声 )， 而 能 的 中 心 数 据点 则 通常 出 现在 密度 高 的 区 域 。 常 用 的 密度 方法 叫 作 
基于 密度 带 噪 声 的 空间 聚 类 应 用 算法 (DBSCAN), 它 用 特定 的 距离 阅 值 定义 两 个 数据 点 之 






































































































































































































































C 英文 为 “k-means++”。 一 一 译 者 注 
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间 的 可 连接 性 〈 因 


寻 此 ， 该 方法 类 似 于 





























个 数据 点 才 被 看 作 是 相互 连接 的 (属于 同 
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Wri tei FAA PB. FA 

















常 月 


层次 算法 ， 见 第 3 章 )。 
Mi) 一 一 在 一 定 























近邻 当中 密度 最 高 的 艇 。1 








THES 

















ti DBSCAN 或 质心 点 方法 速度 慢 。 
IRA ie, 能 够 决定 将 数据 集 分 成 几 
E 艇 的 形状 和 数量 都 未 知 的 数 所 

















因 





Aub FH 





而 它 适 合 
均值 漂移 
均值 漂移 是 一 























局 部 
HJA 
TÉ RR, 


用 均值 漂移 实现 


其 中 , h 表示 带宽 (bandwith); 它 估 
他 数据 点 对 有 x ) 有 微弱 影响 ， 可 以 忽 

















(也 就 是 说 ， 


| K(x®)=1 


Rad 





AEB BU Th ay 
UAE I UATE {x y, 
fT 30) 


He =a? 


计 的 是 近邻 的 : 


度 




















i= 1,- 








ZRK 


个 簇 最 合适 


nfE. 








寻找 数据 集 核 密度 函数 的 局 
eN 各 簇 的 中 心 ， 





只 有 满足 一 定 的 紧密 程度 ， 两 








EF 径 范围 之 内 ， 近 邻 的 数量 





方法 是 均值 漂移 (mean-shift)， 





它 将 每 个 数据 点 划 归 到 在 





度 估计 方法 计算 密度 ， 时 间 7 
方法 的 主要 优点 在 于 ,方法 本 身 能 够 定义 任意 
， 而 不 必 将 复 的 数量 作为 参数 预 











于 销 较 大 ， 均 值 漂移 通常 


BI 





月 
WT 








CHA, 














Jai 





E xO © R 需要 与 














(D 















































h 
245, 在 























最 大 值 
近邻 的 密度 建立 起 关系 : 


和 径 范围 内 的 点 影响 密度 值 
K)o K 为 满足 以 下 条 件 


部 最 大 值 。 所 找到 的 
& BN Ame 2 


ti 





EH o 





的 数量 

















fo) 














的 核 函 数 : 








。 K(x®)>0,i €1,77, N 
核 函数 K( x ? ) 最 常见 的 形式 有 : 
4 xy 
e K(x®)se 20° 高 斯 内 核 
3h © © 
e K(x")= a -(* ) jk : Epanechnikov 内 核 
0 else 
均值 漂移 算法 要 求 hx" ) 取 得 最 大 值 ， 这 可 以 转换 为 如 下 等 式 〈 还 记得 吧 ， 在 函数 分 
析 里 ， 函 数 最 大 值 在 导数 为 0 时 取 到 ): 
beZ -Je 
a an eR 








其 中 ， 天 为 核 密度 函数 天 的 导数 。 





因而 ， 对 下 面 这 个 等 式 进行 迭代 ， 就 可 以 找到 特征 


N Q0 
Y K' x 一 区 x 
F h 
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句 量 x 对 应 的 局 部 最 大 位 置 。 














x? 2 x? 4m (P) 
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其 中 , mi Ym ESSER aL. 当 =a 时 ,条件 (x!) = 0 m(x) 满足 ,算法 收敛。 

















有 上 面 这 个 公式 做 基础 ， 我 们 现在 可 以 代 

















1e1,…,N ， 为 移动 后 的 数据 点 打上 差 号 标记 ， 
以 跟踪 它们 在 算法 碗 代 过 程 位 置 上 的 变动 。 第 1 
次 迭代 ，1=1， 用 前 面 提 到 的 公式 得 到 的 数据 集 
作为 这 一 次 迭代 所 使 用 的 数据 集 , 计算 各 数据 点 
的 位 置 ， 图 中 用 带 有 + 号 的 圈 圈 表示 经 过 这 次 迭 
代 后 数据 点 所 处 位 置 。 
在 图 2.1 中 ， 第 0 UGE, Rini f Hp ns 































































































有 红色 " 差 号 的 圆圈 表示 ， 第 2. K 次 迭代 ， 数 
据点 《分别 带 有 + 和 * 符 号 ) 向 由 蓝 色 方块 标识 的 
局 部 最 大 密度 移动 。 


第 KK 次 迭代 ,计算 得 到 新 数据 点 xt? ,71 El1,…， 
N， 上 图 用 带 * 的 圆圈 表示 。 xp 所 对 应 的 密度 函 
数 (xP) 的 值 大 于 上 一 次 迭代 的 函数 值 ， 因 为 
该 算法 的 目的 是 最 大 化 函数 值 。 经 过 OK 次 迭代 
后 ,原始 数据 集 对 应 ”数据 点 x1El…N， 这些 
数据 点 收敛 到 图 2-1 用 蓝 色 方块 标记 的 位 置 。 特 



















































































合理 使 用 该 方法 ， 需 注意 以 下 事项 。 
均值 漂移 算法 唯一 要 求 的 参数 是 带宽 


























© 彩色 图 片 见 本 书 配 套 PDF 文件 。 下 同 。 一 一 译 者 注 
Q) 原文 为 “clearly associated with”。 一 一 译 者 注 














h， 巧 妙 地 调试 该 参数 ， 才 能 得 到 理想 的 分 簇 结 





助 图 2.1 解释 该 算法 。 第 0 次 迭代 时 ，1=0， 
原始 数据 点 x0,1 El…N (红色 ) 散布 于 数据 空间 。 计 算 均 值 漂移 向 量 m (x )=m(x")， 











O 原始 数据 集 

X 第 0 次 迭代 
第 1 次 迭代 

Bl 局 部 最 大 密度 






外 
Oon% 
Oo O 
2 Oo o o 
o0. 
ooo? kx o 
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图 2.1 均值 漂移 算法 迭代 过 程 ， 数 据点 的 变动 


征 向 量 x ,1E1,…NN 向 两 个 不 同 的 局 部 最 大 值 塌陷 ， 这 两 个 极 值 表示 两 个 艇 。 
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果 。 从 实际 情况 来 看 ，h 太 小 ， 得 到 的 簇 数量 较 多 ， 而 h KK, Y 























F 会 将 多 个 不 同 的 簇 合 





并 到 一 起 。 另 外 ， 还 要 注意 ， 如 果 特 征 向 量 的 维度 d 很 大 ， 均 值 漂移 算法 也 许 得 到 的 结 
较 差 ， 因 为 空间 维度 高 ， 相 应 地 局 部 最 大 值 的 数量 也 很 多 ， 迭 代 函 数 可 能 收敛 得 过 快 。 




















2.1.4 ”层次 方法 





























层次 方法 也 叫 作 基于 连接 性 〈connectivity-based) 的 聚 类 ， 它 根据 某 种 距离 度量 方法 ， 








选取 具有 满足 相似 标准 的 元 素 形 成 复 : 距离 较 近 的 元 素 聚 集 在 同一 个 艇 ， 而 距离 较 远 的 元 
素 分 到 不 同 的 艇 。 这 类 算法 又 可 分 为 两 种 : 分 割 聚 类 (divisive clustering) 和 合成 聚 类 
(agglomerative clustering)。 分 割 聚 类 ， 一 开始 将 整个 数据 集 分 到 一 个 艇 ， 接 着 将 其 分 到 两 
































个 不 那么 相似 距离 稍 远 ) 的 簇 。 分 割 过 程 ， 得 到 的 每 一 部 分 再 次 分 割 |， 
自 成 一 禾 。 合 成 聚 类 是 最 常用 的 聚 类 方法 ， 它 从 小 处 着 眼 ， 首 先 将 每 个 数据 点 各 分 到 一 个 






































篮 。 然 后 ， 根 据 相 似 度 ， 将 这 些 复 合并 ， 直 到 所 有 的 数据 点 都 被 分 到 同 











法 通过 迭代 形成 了 位 于 不 同 层次 的 能 ， 因 此 也 称 为 层次 聚 类 ， 




















参见 图 2.2。 








直到 每 个 数据 点 

















一 个 徐 。 这 两 种 方 





顺便 提 一 下 ， 这 


种 表示 层次 的 方法 叫 作 树 状 图 (dendrogram)。 横 轴 表 示 数 据 集 的 数据 点 ， 纵 轴 表 示 距 离 。 











每 条 水 平 线段 表示 一 个 艇 , 纵 轴 表示 哪些 元 素 或 能 因为 相似 而 




















图 2.2 














图 2.2， 合 成 聚 类 方法 ， 一 开始 禾 的 数量 跟 数 据点 的 数量 一 样 多 ， 最 终 得 到 





合并 为 另 一 个 层次 较 高 的 艇 。 


的 是 一 个 包罗 所 有 


























数据 点 的 复 。 反 之 ， 分 割 聚 类 方法 ， 一 开始 只 有 一 个 能 ， 结 束 时 得 




















到 | 的 每 个 禾 





\ 包 含 一 个 数据 点 。 








我 们 需要 使 用 特定 标准 来 终止 合成 /分 割 策略 ， 从 而 得 到 最 终 的 分 簇 结果 。 我 们 用 距离 
标准 来 指定 两 个 簇 无 法 合成 一 个 簇 的 最 大 距离 ， 用 簇 数 量 标 准 来 指定 停止 层次 聚 类 算法 继 



































续 合并 或 分 割 簇 的 最 大 禾 数 量 。 
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合成 方法 的 一 种 算法 描述 如 下 。 























CL) 将 数据 集 { x 3, i€ LN 的 每 个 元 素 i 划分 到 不 同 的 久 中 ,使 得 各 个 元 素 自 成 一 簇 。 
(2) 计算 所 有 簇 两 两 之 间 的 距离 ， 将 距离 最 近 的 两 个 艇 合并 为 一 个 艇 ， 簇 的 总 数 减 1。 
G) 计算 新 得 到 的 艇 和 其 他 簇 之 间 的 距离 。 

(4) 重复 步骤 (2) 和 3)， 直 到 得 到 一 个 包含 所 及 PITRE 



















































































fk Cl 和 C2 之 间 的 距离 d(C1,C2)， 实 际 计算 时 ， 用 两 个 数据 点 cl1 ECl，c2E C2 之 间 
的 距离 来 代替 。 对 于 包含 多 个 数据 点 的 艇 ， 有 必要 根据 某 种 标准 选择 数据 点 来 计算 距离 。 
C1 和 C2 两 个 艇 之 间 常 用 的 链接 标准 如 下 。 






























































o 单 链接 (single linkage): Cl 中 的 任意 元 素 和 C2 中 的 任意 元 素 之 间 的 最 小 距离 表示 为 : 








d(Cl,C2) = min {d(cl,c2): cl e Cl,c2 e C2} 








。 #4272 (complete linkage): Cl 中 的 任意 元 素 和 C2 中 的 任意 元 素 之 间 的 最 大 距离 
表示 为 : 





d(CLC2) = max (d(clc2):cl e Cl,c2e C2] 
除权 配对 法 CUPGMAO 或 均 链 接 (average linkage): Cl 中 的 任意 元 素 和 C2 中 的 任意 
元 素 之 间 的 平均 距离 表示 为 4(CLC2)= -六 >》 d(cl,c2), IH, |Nal |N 


Na Na cleClc2eC2 


























为 C1、C2 中 元 素 的 数量 。 














。 Ward 算法 : 它 将 不 会 增加 异 质 性 Cheterogeneity) 的 复合 并 。 它 的 目标 是 ， 在 最 小 
化 增加 variation measure 的 前 提 下 ， 合 并 Cl 和 C2 AF. variation measure 叫 作 
合并 代价 ， 用 A(C1,C2) 表 示 。 对 于 该 算法 ， 距 离 蔡 换 为 合并 代价 ， 其 公式 如 下 : 


A(CLC2)= NaNe Nees ae c2 
Na cleCl Nis c2eC2 


Nat Na 
HR, [Nh IN ADA Cl. C2 中 元 素 的 数量 。 
















































































Ha He 




















实现 层次 聚 类 算法 ，d(clc2) 有 不 同 的 度量 方法 ， 最 常用 的 是 欧 氏 距离 : 


d(cl,c2)= [$ (cl, - c2, 


i 








请 注意 层次 聚 类 方法 从 时 间 方 面 来 讲 不 是 非常 高 效 ， 因 此 不 适合 大 型 数据 集聚 类 。 并 






































， 为 存在 错误 的 数据 点 〈 异 常 值 ) 聚 关 ， 鲁 棒 性 不 好 ， 它 也 许 会 误 把 几 个 秘 合 j 
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聚 类 方法 的 训练 和 对 比 
我 们 生成 一 个 数据 集 ， 比 较 前 面 介绍 的 几 种 聚 类 方法 。 我 们 从 均值 为 = [10,0] 和 j= 
uo. 方差 为 = - | PP -H 2-46». BEFUROHGR AU GEAR. 






























































1 
1 4 





图 像 。 
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我 们 用 NumPy 库 生成 数据 点 ， 用 matplotlib 库 绘制 


from matplotlib import pyplot as plt 

import numpy as np 

np.random.seed(4711) # for repeatability 

cl = np.random.multivariate normal([10, 0], [[3, 1], [1, 4]]l, 
size=[100,]) 

11 = np.zeros (100) 

12 = np.ones (100) 

c2 = np.random.multivariate_normal([0, 10], [[3, 1], [1, 4]], 
size=[100,]) 

#add noise: 

np.random.seed(1) # for repeatability 

noiselx = np.random.normal(0,2,100) 

noisely = np.random.normal (0,8,100) 

noise2 = np.random.normal (0,8,100) 

c1[:,0] += noiselx 

c1[:,1] += noisely 

c2[:,1] += noise2 


fig = plt.figure (figsize=(20,15) ) 

ax = fig.add_subplot (111) 

ax.set xlabel('x',fontsize-30) 

ax.set ylabel('y',fontsize-30) 
fig.suptitle('classes',fontsize-30) 

labels - np.concatenate((11,12),) 

X = np.concatenate((cl, c2),) 

ppl= ax.scatter(c1[:,0], cl[:,1],cmap='prism' ,s=50,color='r') 
PP2= ax.scatter(c2[:,0], c2[:,1],cmap='prism' ,s=50,color='g') 
ax.legend((ppl,pp2),('class 1', 'class2') ,fontsize=35) 
fig.savefig('classes.png') 





我 们 为 两 个 类 别 分 别 添加 了 服从 正 态 分 布 的 噪音 ， 使 例子 看 起 来 更 加 真实 。 结 果 如 
图 2.3 所 示 。 








2.1 





classes 












































**. classl 
**. Class2 
t re wl eee 
x 
图 2.3 含 噪声 、 服 从 正 态 分 布 的 两 个 类 别 
我 们 用 sklearn 和 scipy 库 实 现 几 种 聚 类 方法 ， 绘 图 仍 用 matplotlib 库 : 





import numpy as np 


from sklearn import mixture 


from 
from 


from sklearn.cluster import KMeans 


from sklearn.cluster import MeanShift 


from matplotlib import pyplot as plt 


fig.clf()#reset plt 


fig, ((axisl, axis2), (axis3, axis4)) 


sharey='row') 


#k-means 


kmeans KMeans (n_clusters=2) 
kmeans. fit (X) 
pred_kmeans 


kmeans.labels 





Scipy.cluster.hierarchy import linkage 
scipy.cluster.hierarchy import fcluster 


= plt.subplots(2, 2, 
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sharex='col', 


plt.scatter(X[:,0], X[:,1], c=kmeans.labels_, cmap='prism') # plot 


points with cluster dependent colors 


axisl.scatter(X[:,0], X[:,1], c=kmeans.labels_, cmap='prism') 


axisl.set ylabel('y',fontsize-40) 


48 


n_components=2)， 将 均值 漂移 算法 的 带宽 设置 为 7 (bandwidth=7)。 层 次 聚 类 算法 使 
用 Ward 链接 来 定义 距离 ， 终 止 层次 算法 的 最 大 (Ward 链接 ) 距离 max_d， 我 们 设置 


为 1 




















移 和 和 


] labels 属 





出 图 
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axisl.set title('k-means',fontsize-20) 


#mean-shift 

ms = MeanShift (bandwidth=7) 

ms. fit (X) 

pred_ms = ms.labels_ 

axis2.scatter(X[:,0], X[:,1], c=pred_ms, cmap='prism') 
axis2.set title('mean-shift',fontsize-20) 


#gaussian mixture 

g = mixture.GMM(n components-2) 

g.fit(X) 

pred gmm - g.predict (X) 

axis3.scatter(X[:,0], X[:,1], c-pred gmm, cmap='prism') 
axis3.set xlabel('x',fontsize-40) 

axis3.set ylabel('y',fontsize-40) 

axis3.set title('gaussian mixture',fontsize-20) 


#hierarchical 
# generate the linkage matrix 
Z = linkage(X, 'ward') 


max_d = 110 


pred_h = fcluster(Z, max_d, criterion='distance') 
axis4.scatter(X[:,0], X[:,1], c=pred_h, cmap='prism') 
axis4.set xlabel('x',fontsize-40) 

axis4.set title('hierarchical ward',fontsize-20) 
fig.set size inches(18.5,10.5) 

fig.savefig('comp clustering.png', dpi-100) 














上 述 代 码 中 ， 我 们 需要 为 上 均值 函数 和 高 斯 混合 模型 为 指定 簇 的 数量 (n_clusters=2、 



















































































10. fcluster 函数 预测 每 个 数据 点 属于 哪个 艇 。k 均值 和 均值 漂移 方法 的 聚 类 结果 
性 就 能 获取 到 ， 而 高 斯 混合 模型 则 需要 使 用 predict 函数 。k 均值 、 均 值 漂 
高 斯 混合 方法 用 fit 函数 训练 ， 而 层次 聚 类 算法 用 linkage 函数 训练 。 上 述 代码 输 
2.4。 


在 图 2.4 中 , 均值 漂移 和 层次 聚 类 方法 将 数据 分 成 两 个 艇 , 因此 我 们 选取 的 参数 值 ( 带 
最 大 距离 ) 合适 。 需 要 注意 的 是 ， 层 次 聚 类 方法 ， 我 们 是 根据 下 列 代 码 生成 的 树 状 






















































































di 















































X 














来 选择 最 大 距 高 这 一 参 的 取 值 : 








图 


我 们 通 























过 truncate mode='lastp' 标 记 可 指定 将 最 后 多 少 次 合 
2.4 清楚 地 表明 ， 当 晶 
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2.1 








绘制 成 

















E 离 在 100 到 135 之 间 时 ， 只 剩 下 两 个 艇 。 
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图 (该 例 中 p=12)。 



























































from scipy.cluster.hierarchy import dendrogram 
fig = plt.figure(figsize-(20,15)) 
plt.title('Hierarchical Clustering Dendrogram' , fontsize=30) 
plt.xlabel('data point index (or cluster index) ', fontsize=30) 
plt.ylabel('distance (ward) ', fontsize=30) 
dendrogram ( 
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Z, 
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图 2.4 用 上 均值、 均值 漂移 、 高 斯 混合 模型 和 层次 算法 (Ward 链接 ) 对 两 类 数据 聚 类 结果 


truncate mode='lastp', # show only the last p merged clusters 
p=12, 
leaf_rotation=90., 


leaf_font_size=12., 


show_contracted=True, 


fig.savefig('dendrogram.png') 


在 





图 2.5 rn, fid 
包含 的 数据 点 数量 。 





这 




















E 标 标签 (小 括号 中 的 数字 )， 表 示 最 后 








pa 





12 次 合并 之 前 ， 每 个 簇 所 
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层次 聚 类 树 状 图 











距离 〈Ward 链 接 ) 
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数据 点 索引 (REAT) 














图 2.5 最 后 12 次 合并 的 层次 聚 类 树 状 


DS 























除 高 斯 混合 模型 之 外 ， 其 他 3 BRO ER AN E 2X n k AKER 
方法 表现 最 为 突出 。 上 述 结果 证 实 ， 高 斯 混合 模型 是 鲁 棒 性 最 好 的 方法 ， 因 为 数据 集 所 属 
的 分 布 跟 假 定 的 相同 ,为 了 评估 聚 类 方法 的 效果 , scikit-learn 提供 了 儿 种 量化 分 割 (partition) 
正确 性 的 方法 : v-measure、 完 整 性 和 同 质 性 。 这些 评估 方法 要 用 到 每 个 数据 点 的 实际 类 别 ， 
因此 它们 也 被 称 为 外 部 验证 机 制 ， 它 们 需要 用 到 聚 类 时 用 不 到 的 额外 信息 。 同 质 性 h 
(homogeneity〉 取 值 介 于 0~~1， 它 衡量 的 是 每 个 簇 是 否 只 包含 同一 类 别 的 数据 点 。 完 整 性 
c 的 取 值 同样 是 介 于 0~1， 它 衡量 的 是 同一 类 别 的 所 有 数据 点 是 否 划 分 到 同一 个 秘 之 中 。 
假定 聚 类 后 ， 将 每 个 数据 点 分 到 不 同 的 艇 每 个 簇 只 包含 一 个 类 别 ， 同 质 性 就 为 1， 但 是 
除非 每 个 类 别 只 包含 一 个 数据 点 ， 否 则 完整 性 就 非常 低 ， 因 为 误 将 同一 类 别 的 数据 点 分 散 
到 多 个 簇 之 中 去 了 。 反 之 ， 如 果 聚 类 结果 将 分 属于 多 个 类 别 的 数据 点 划分 到 同一 艇 ， 当 然 
其 完整 性 为 1， 但 同 质 性 极 低 。 这 两 个 值 的 计算 公式 类 似 ， 如 下 所 示 : 

H(C|c) ., &clo) 
H(C,) H(C) 
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c1 BX SK 


. 给 定 聚 类 任务 ， 


。 给 定 类 别 的 所 属 关 系 ，H(C| 


。 AH(OD) 为 各 类 





。 HOA: H(C)- 





。 N HB C 


据点 数量 。 











H(CIC) 为 各 类 别 CANALES: 











AE: H(C,)-— 





p-i 


LN N 
-Y :os| 
N N 











中 类 
v-measure 为 同 质 性 和 完整 性 的 调和 平均 数 : 
4 hc 
hsc 








这 些 评估 聚 类 质量 的 方法 ， 需 要 使 
一 种 评估 方法 叫 作 轮廓 系数 (silhouette cofficient), ^t [X (HFA R% 
的 是 每 个 数据 点 与 同 复数 据点 和 其 他 复数 据点 之 间 的 术 

















数据 点 真正 的 标签 ， 











EC; Cres 


COHERE: H(C|c)- 


3173 p WH CE, N, 指 类 别 为 p 的 数据 点 数量 ，N. TIR C 


21 XXE 51 


GIN 


XE 





p=! el 


IG lel N 


EET 





p=1 ce=1 


数 





但 实际 情况 往往 做 不 到 。 男 



























































法 用 到 的 数据 。 它 计生 


日 似 度 。 如 果 从 平均 相似 度 来 看 ， 








个 数据 点 与 同 艇 数据 M EGBG i 其 他 簇 的 数据 点 更 相似 ， 那 么 各 簇 的 划分 就 很 理想 ， 


这 时 ， 轮 廓 系数 接近 
义 它 的 公式 : 


e 4 为 每 个 数据 点 i STAR 





于 -1)。 给 

















。 d, OARA 





d ros (i) E 


d, (i) 





as max(d,(i) 


下 面 ， 我 们 用 sklearn (scikit-learn) if 








d.) 























4 种 聚 类 外 











定 每 个 数据 点 i 和 下 面 两 个 量 ， 


数据 点 之 间 的 平均 距离 ; 
点 i 跟 其 他 各 簇 数据 点 之 间 的 最 小 距离 。 











我 们 来 定 


， 总 轮廓 系数 为 所 有 数据 点 轮廓 系数 s(i) 的 均值 。 


法 的 4 个 评价 指标 : 


from sklearn.metrics import homogeneity completeness v measure 
from sklearn.metrics import silhouette score 
res = homogeneity completeness v measure (labels,pred kmeans) 
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print 'kmeans measures, homogeneity:',res[0],' completeness:',res[1],' 
v-measure:',res[2],' silhouette score:',silhouette score (X,pred kmeans) 
res = homogeneity completeness v measure (labels,pred ms) 

print 'mean-shift measures, homogeneity:',res[0],' 


completeness: ' 


,res 


[1],' v-measure:',res[2],' silhouette 


score:',silhouette score (X,pred ms) 
res = homogeneity completeness v measure (labels,pred gmm) 
print 'gaussian mixture model measures, homogeneity: ',res[0],' 


completeness: ' 


,res 


[1],' v-measure:',res[2],' silhouette 


score:',silhouette score (X,pred gmm) 
res = homogeneity completeness v measure (labels,pred h) 
print 'hierarchical (ward) measures, homogeneity:',res[0],' 


completeness: ' 


,res[1],' v-measure:',res[2],' silhouette 


score:',silhouette_score (X,pred_h) 

The preceding code produces the following output: 

kmeans measures, homogeneity: 0.25910415428 completeness: 0.259403626429 
v-measure: 0.259253803872 silhouette score: 0.409469791511 

mean-shift measures, homogeneity: 0.657373750073 completeness: 
0.662158204648 v-measure: 0.65975730345 silhouette score: 0.40117810244 
gaussian mixture model measures, homogeneity: 0.959531296098 
0.959600517797 v-measure: 0.959565905699 silhouette 

score: 0.380255218681 

hierarchical (ward) measures, homogeneity: 0.302367273976 completeness: 
0.359334499592 v-measure: 0.32839867574 silhouette score: 

0.356446705251 


completeness: 





跟 我 们 前 面 对 4 28$ 
值 最 高 〈 接 近 于 1); 均值 漂移 算法 






























































法 聚 类 图 分 析 一 致 ， 高 斯 混合 模型 同 质 性 、 完 整 性 和 v-measure 
各 项 评价 指标 还 算 过 得 去 〈 约 为 0.5); 而 均值 和 层次 




















DH 
















































































方法 较 差 ( 约 为 0.3)。 相 反 ， 这 几 种 方法 的 总 轮廓 系数 都 很 理想 〈0.35 一 0.41)， 意 思 是 最 
终 得 到 的 艇 ， 定 义 是 比较 合理 的 。 





2.2 降 维 





























降 维 也 称 作 特 征 抽取 ， 是 指 将 高 维 数据 空间 转换 为 低 维 的 数据 空间 的 操作 。 降 维 得 到 





的 子 空 间 应 该 仅 包 含 与 原始 数据 最 相关 的 信息 ， 降 











VS 

















任 技 术 分 为 线性 和 非 线性 两 大 类 。 降 维 














操作 采用 多 种 技术 ， 从 大 型 数据 集 抽取 最 相关 信息 ， 降 低 复 杂 度 ， 同 时 保留 最 相关 的 信息 。 


最 著名 的 降 维 算法 主 成 分 分 析 PCA) 将 原始 数据 以 线性 形式 映射 到 维度 互 不 相关 的 
子 空 间 。 我 们 接 来 下 就 介 





作者 GitHub 主页 图 











Boot 


























I 





绍 这 种 降 维 算法 。 这 一 节 的 代码 [Python 版 和 纯 Python 版 已 放 到 
夹 : https://github.com/ai2010/machine learning for the web/tree/ 








master/chapter_2/. 


主 成 分 分 析 (PCA ) 
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主 成 分 分 析 算 法 旨 在 识别 数据 集 相 关 信 息 所 在 的 子 空间 。 实 际 上 ， 由 于 某 些 数据 维度 





的 数据 点 存在 相关 性 , 因此 PCA TRAE A HH 


























FE、 数据 不 同 的 维度 , 这 样 的 维度 很 少 。 








例如 ， 汽车 行驶 轨迹 可 以 用 一 系列 变量 来 描述 ， 比 如 用 km/h 或 m/s 表示 的 速度 、 用 经 纬度 






































表示 的 位 置 、 用 离开 给 定点 多 少 米 或 英 


有 表示 的 位 置 。 
























































量 和 位 置 变 



































NM 


ERE. teat, XT H km/h 和 m/s 表 


=). PCA AMM STKE, ORT ERA) 

















该 算法 选择 方差 较 大 的 变量 ， 这 两 种 速度 表示 之 间 


WAN velocity[km/h]=3.6*velocity[m/s 








见 图 2.6〈 表 示 这 种 函数 关系 的 直线 更 靠近 km/h Hh, Al 























为 Ikm/h-3.6m/s) . 3X& ETE km/h 轴 上 的 投影 
比 起 在 m/s 轴 上 的 更 加 分 散 )。 



























































线 | 
而 m/s 轴 上 的 投影 方差 较 小 。 治 直 


= 


















































图 2.6 为 用 m/s 和 km/h 表示 的 速度 两 者 之 间 为 
生 函 数 关系 ,数据 点 在 knyh 轴 上 的 投影 方差 较 大 ， 





], 函数 图 像 





(projection) 














2% velocity 




















显然 ， 我 们 可 以 对 这 些 维度 进行 降 











维 操作 ， 因 为 不 同 的 速度 变量 或 位 置 变量 给 出 的 信息 相同 (相关 变量 )， 因 此 相应 的 子 空间 
可 以 由 两 个 不 相关 的 维度 组 成 (速度 变量 


km/h 


< 








图 2.6 用 m/s 和 km/h 





























[km/h]= 3.6*velocity[mys] 分 布 的 数据 点 的 方差 要 大 于 两 条 轴 上 投影 的 方差 。 
































大 化 的 不 相关 维度 等 价 于 按 以 下 步 又 进行 计生 








。 数据 集 的 均值 : anys” 





























m/s 





表示 的 速度 


之 间 的 线性 函数 关系 





有 了 上 述 例子 作 铺 垫 ， 现 在 我 们 可 以 详细 讨论 这 种 方法 及 其 特点 。 不 难看 出 ， 寻 找 方差 最 


























。 同 样 ， 假 定 我 们 有 特征 向 量 x” 




















。 均值 发 生 漂移 后 得 到 的 数据 集 ，um = xm -piel N 
。 调整 后 的 数据 集 ， 其 中 每 个 特征 向 量 的 分 量 wo RURE: w/o, ou, 

















~ 





© 公式 大 括号 里 面 的 系数 为 /N。 一 一 译 者 注 
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。 RORIS. = (uo) uo 


。 天 个 最 大 的 特征 值 (eigenvalue) 4; i€l, sk, ULTRI REREIRISE Ceigenvector ) 

ws PEL. 

。 有 映射 到 由 磊 个 特征 向 量 组 成 的 子 空间 的 特征 向 量 v) = WU e R^, HP, We[w w^ ] 

e RN 是 X 行 大 列 的 特征 向 量 矩 阵 。 

最 终 ， 特 征 的 向 量 〈 主 成 分 ) vO 位 于 子 空间 R*， 它 仍然 保留 着 
《和 信息 )。 

处 理 高 维 数据 集 ， 比 如 脸 部 识别 任务 ，PCA 降 维 技术 非常 有 用 。 对 于 脸 部 识别 任务 ， 
需要 比 对 输入 的 图 像 和 数据 库 中 的 其 他 图 像 ， 以 找到 正确 的 人 。 用 PCA 实现 的 Eigenfaces 
《特征 脸 ) 应 用 ， 利 用 每 张 图 像 中 大 量 像素 是 相关 的 这 一 特点 实现 人 脸 识别 。 例 如 ， 图 像 背 
景 处 的 像素 都 是 相关 〔 相 同 〉 的 ， 因 此 可 以 用 降 维 方法 ， 在 维度 更 少 的 子 空间 比较 图 像 ， 
可 以 更 快 地 给 出 准确 结果 。 作 者 的 GitHub 主页 放 了 Eigenfaces 的 一 种 实现 方式 ， 详 见 
https://github.com/ai2010/eigenfaces. 






















































































原始 向 量 的 最 大 方差 


OBa 




































































































































































PCA 示例 

下 面 这 个 例子 讲解 PCA 和 NumPy 库 的 用 法 ， 后 者 我 们 在 第 1 章 介 绍 过 。 我 们 的 任务 
是 识别 二 维 数据 集 的 主 成 分 。 该 数据 集中 的 数据 点 沿 直线 y=2x 分 布 , 其 中 包含 一 些 随机 ( 正 
态 分 布 ) 添加 的 噪声 。 数 据 集 及 其 图 像 〈 见 图 2.7) 用 以 下 代码 生成 : 
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import numpy as np 
from matplotlib import pyplot as plt 


#line y = 2*x 

x = np.arange(1,101,1).astype(float) 
y = 2*np.arange (1,101,1) .astype (float) 
#add noise 

noise = np.random.normal(0, 10, 100) 
y += noise 


fig = plt.figure (figsize=(10,10) ) 

#plot 

plt.plot(x,y,'ro') 

plt.axis([0,102, -20,220]) 

plt.quiver(60, 100,10-0, 20-0, scale_units='xy', scale=1) 
plt.arrow(60, 100,10-0, 20-0,head_width=2.5, head length-2.5, fc='k', 


ec='k') 
plt.text(70, 110, r'$v^l$', fontsize-20) 


#save 

ax = fig.add_subplot (111) 

ax.axis([0,102, -20,220]) 

ax.set xlabel('x',fontsize-40) 

ax.set ylabel('y',fontsize-40) 

fig.suptitle('2 dimensional dataset',fontsize-40) 
fig.savefig('pca data.png') 
































2.2 




















图 2.7 就 是 我 们 生成 的 数据 集 。 显 然 ， 数 据点 沿 一 定 方向 分 布 ， 它 对 应 
数据 中 抽取 的 主 成 分 六 。 
二 维 数 据 集 
200 xc 
M 100 " e 
X 


















































图 2.7 二 维 数据 集 。 主 成 分 的 v 方 向 用 箭头 表示 
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的 是 我 们 要 从 


该 算法 计算 二 维 数据 集 的 均值 和 均值 漂移 后 得 到 数据 集 的 均值 ， 然 后 用 相应 的 标准 差 











调整 数据 的 取 值 范围 : 





mean_x = np.mean (x) 


56 


的 PCA 算法 实现 ， 无 须 调整 数据 取 值 范围 或 移动 均值 。 使 用 sklearn 模块 之 前 ， 
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mean y = np.mean(y) 

u x = (x- mean x) /np.std(x) 
u y = (y-mean y)/np.std(y) 
sigma = np.cov([u x,u y]) 














为 了 抽取 主 成 分 ， 我 们 需要 计算 特征 值 和 特征 向 量 ， 选 择 特 征 值 最 大 的 特 得 



































RT 


ER] 











eig vals, eig vecs - np.linalg.eig(sigma) 
eig pairs = [(np.abs(eig vals[i]), eig vecs[:,i]) 
for i in range(len(eig vals))] 


eig pairs.sort() 

eig pairs.reverse() 

vl = eig pairs[0][1] 

print vl 

array([ 0.70710678, 0.70710678] 

















H 

















为 了 确认 主 成 分 是 否 按照 预期 沿 直线 分 布 ， 我 们 需要 将 其 坐标 调整 回去 : 





vit 





























v1[0]*np.std (x) +mean_x 


x vl 


y v1 v1[1]*np.std(y) +mean_y 
print 'slope:', (y_v1-1) / (x_v1-1) 
slope: 2.03082418796 

















计算 得 到 斜率 约 为 2, 这 跟 我 们 一 开始 选取 的 数值 一 致 。scikit-learn 库 提供 了 一 种 快捷 


















































将 调整 后 的 数据 转换 为 矩阵 格式 ， 和 矩阵 的 每 一 行为 用 x、y 坐标 表示 的 数据 点 : 

















X = np.array([u x,u y]) 
X = X.T 

print X.shape 

(100,2) 











我 们 需要 


现在 可 以 运行 PCA 模块 ， 指 定 目标 主 成 分 数量 〈 该 例 中 我 们 将 其 设置 为 D: 











iu 


from sklearn.decomposition import PCA 
pca = PCA(n components-1) 

pca.fit(X) 

vl sklearn = pca.components [0] 

print vl sklearn 

[ 0.70710678 0.70710678] 




















用 这 种 方法 得 到 的 主 成 分 [ 0.70710678 0.70710678] 与 我 们 前 面 一 步 步 计 入 








得 到 的 完 


23 AFEN (SVD) 57 








全 相同 ， 因 此 直线 的 斜率 也 相同 。 现 在 ， 我 们 可 以 用 这 两 种 方法 将 数据 集 转 换 到 新 的 一 
维 空间 : 








#transform in reduced space 

X red sklearn = pca.fit transform(X) 

W = np.array(vl.reshape(2,1)) 

X red - W.T.dot(X.T) 

#check the reduced matrices are equal 

assert X red.T.all() == X red sklearn.all(), 'problem with the pca 
algorithm' 














assert 断言 语句 没有 抛 出 异常 ， 因 此 两 种 方法 的 结果 完全 一 致 。 








2.3 ”奇异 值 分 解 (SVD) 




















该 方法 是 基于 定理 :矩阵 尖 dxN 可 以 分 解 为 


X -UXVT 























Hr 
。U 是 一 个 dxd 的 酉 矩阵 。 
。 二 是 一 个 dxN 的 对 角 和 矩阵 ， 对 角 线 元 素 o, 叫 作 奇 异 值 。 
© 本 是 一 个 NxN HERE. 













































































该 例 , X HVBEAEIRI x’ i El, N 构成 ,其 中 x € R* 表示 一 列 。 我 们 可 以 减少 每 个 特 
征 向 量 的 维 数 4， 去 近似 奇异 值 分 解 。 在 实际 操作 中 ， 我 们 只 考虑 最 大 的 奇异 值 c 0, 


t 

















X «UE V/ ,U, (dxt),X, (txt), V" (txN) 

















t 表示 降 维 后 得 到 的 空间 维度 ， 该 空间 也 就 是 特征 向 量 映射 到 的 空间 。 向 量 xo 按 如 下 
的 公式 转换 到 新 空间 : 























NT 
de (=) UX,eR 





RR, HERE DV, 〈 而 不 是 天 ) 表示 在 1 维 空间 的 特征 向 量 。 
该 方法 与 PCA 非常 相似 ; 实际 上 ，scikit-learn 库 正 是 用 SVD 算法 来 实现 PCA. 
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2.4 小 结 















































们 结果 的 好 坏 。 我 们 还 讲解 和 实现 了 最 主要 的 降 维 技术 一 一 主 成 分 分 析 法 (PCA )。 学 完 本 
章 ， 你 应 该 已 具备 用 Python 及 其 库 实现 无 监督 学 习 算 法 ， 解 决 实际 问 题 的 能 


在 下 一 章 中 ， 我 们 将 讨论 分 类 和 回归 这 两 类 有 监督 学 习 算 法 。 


本 章 详 细 讨论 了 主要 的 聚 类 算法 。 我 们 实现 了 这 些 算法 〈 用 scikit-learn) 并 比较 了 它 
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本 章 讨论 最 常用 的 回归 和 分 类 技术 。 这 类 算法 背后 的 机 制 是 相同 的 。 通 常 而 言 ， 有 监 
督学 习 算 法 指 的 是 分 类 和 回归 。 本 章 ， 我 们 会 依次 讨论 线性 回归 、 朴 素 贝 叶 斯 、 决 策 树 和 
支持 向 量 机 算法 。 我 们 将 用 这 些 算法 解决 一 个 分 类 问题 和 一 个 回归 问题 ， 以 帮助 你 理解 它 
们 的 使 用 方法 。 前 言 部 分 也 曾 讲 过 ， 有 监督 学 习 要 用 标注 好 的 训练 集训 练 模型 ， 找 到 合适 
的 参数 值 。 跟 之 前 一 样 ， 本 章 代码 也 己 放 到 我 的 GitHub 主页 本 章 文 件 夹 中 ， 地 址 是 https:// 
github.com/ai2010/machine learning for the web/tree/master/chapter 3/. 


本 章 最 后 ， 我 们 将 介绍 另 一 种 也 可 以 实现 分 类 的 算法 《〈 隐 马尔 可 夫 模 型 )， 虽 然 它 不 是 专门 用 
来 处 理 分 类 问题 的 。 我 们 现在 先 来 解释 这 些 方法 在 预测 数据 集 标签 这 类 问题 上 常见 的 出 错 原因 。 


3.1 模型 错误 评估 






























































































































































































































































我 们 前 面 讲 过 ， 用 训练 好 的 模型 去 预测 新 数据 的 标签 ， 预测 结 果 的 质量 取决 于 模型 的 泛 化 
能 力 ， 即 正确 预测 在 训练 数据 中 未 出 现 的 数据 的 能 力 。 该 问题 的 研究 文献 很 多 , 一 般 涉及 两 个 概 
D: 输出 的 偏差 (bias〉 和 方差 (variance )。 偏 差 是 指 由 算法 的 错误 假设 导致 的 错误 。 给 定 标签 
Ay, 的 数据 点 x , 如果 用 不 同 的 训练 集训 练 , 模型 就 会 有 偏差 , 预测 结果 y P 将 总 是 不 同 于 y, 。 
而 方差 误差 (variance error) 是 指 对 于 给 定数 据点 x ， 给 出 了 不 同 的 、 错 误 的 预测 标签 。 举 个 
型 的 例子 ， 假 定 有 一 组 同心 圆 ， 正 确 的 标签 值 〈 实 际 标签 ) 位 于 中 心 区 域 ， 如 图 3.1 所 示 。 预 
则 结果 越 接 近 中 心 ， 模 型 偏差 和 方差 越 小 (图 3.1 左上 方位 置 )。 其 他 3 种 情况 一 并 显示 如 下 。 

方差 和 偏差 较 低 的 模型 , 用 小 点 ( 见 图 3.1) 表示 的 预测 结果 集中 分 布 在 红心 "位 置 ( 实 
际 标签 )。 偏 差 较 大 的 模型 ， 预 测 结果 远离 实际 标签 所 在 位 置 ， 而 方差 较 高 的 模型 ， 预 测 结 
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cee 






















































































CD 同心 圆 中 最 小 的 那 一 个 。 一 一 译 者 注 
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果 分 布 范 围 较 广 。 


标签 可 以 是 连续 型 或 离散 型 ， 分 别 对 应 回 
cite 大 多 数 模型 适用 于 这 两 类 问 
e 下 文中 的 回归 和 分 类 这 文 两 个 词 指 同一 个 模 
。 更 加 正式 地 讲 ， 给 定 一 个 由 个 数据 点 组 
AASE eR AME AUS REIR tE 
1,…,N， 模 型 的 参数 为 0=0;，0, |， 或 表示 
为 6,，jE0,…, M-1， 并 且 ， 参 数 的 实际 估计 值 

















(true parameter) 0 2 0o, °°) 04a,0;, JE0, *…, 


MN-1， 那 么 模型 的 均 方 误差 (Mean Square Error, 






































MSE(0) = +> »-»m)- E ó- oj [(6 - £(0) |+(E(0)- 0) = Var() + Bias(0,0)° 


t=1 





我 们 将 用 均 方 误差 这 一 评价 指标 来 评估 本 章 所 讲 算法 的 好 坏 。 我 们 现在 开始 讲解 广义 
线性 方法 。 


3.2 广义 线性 模型 








广义 线性 模型 是 一 类 模型 的 统称 ， 这 类 模型 尝试 寻找 OM SERE y 和 特征 向 量 x" 形 
成 线性 关系 的 参数 0 ，jE0,…, M-1， 如 下 所 示 : 





y, = 6.x" %46=h,(x)+e, Vie0,-.N-1 


J 


























其 中 ，e 指 模型 的 错误 。 算 法 在 寻找 参数 值 时 , 尝试 最 小 化 由 代价 函数 (cost function?) 
所 定义 的 模型 的 错误 J: 

















123 i-em 


J 的 最 小 化 用 迭代 算法 批量 梯度 下 降 (batch gradient descent) 实现 : 





6, «— 0, sam. Vje0,-, M -1 


i= 90 j 





CD XFA distortion function, loss function。 一 一 译 者 注 
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上 式 中 的 a 叫 作 学 习 速 率 (learning rate)， 它 是 收敛 速度 和 收敛 精度 之 间 的 折衷 。 男 一 
种 算法 叫 作 随机 梯度 下 降 (stochastic gradient descent)， 对 iE0,，…, N-1 进行 迭代 : 














0; «-0,*a 


才 于 每 个 训练 样 例 i, 更 新 0 ， 而 不 是 等 到 最 后 对 训练 集 全 部 样 例 的 梯度 加 总 后 再 更 
新 0"“。 随 机 梯度 下 降 算 法 收敛 至 .7 的 最 小 值 附近 ， 它 通常 比 批量 梯度 下 降 算法 收敛 速度 更 
快 ， 但 是 随机 梯度 下 降 最 后 得 到 的 结果 在 实际 参数 值 附近 波动 。 下 一 节 介 绍 最 常用 的 模型 
h(x?) 和 相应 的 代价 函数 J 

1. 线性 回归 


线性 回归 是 最 简单 的 回归 算法 ， 它 基于 以 下 模型 : 


Vj €0,.-, M -1 


> 





























































































































M-1 
h (x®)=0 | gx + O,x\? 4 =P Ox Vi e0,-,N-1 
j-0 











它 的 代价 函数 和 更 新 规则 如 下 : 
P= Ow (oP) nag on ere ar 


i-0 





2. 上 岭 回 归 





岭 回 归 Cridge regression) 也 叫 作 吉 洪 诺 夫 正则 化 (Tikhonov regularization), ‘EEA 
函数 /中 增加 了 正则 项 : 

















_ 1 二 oV AM LO Guo 
-52b-^( )) 2005 mal aaa J * 48, 
vje0, =, M-1, 1 为 正则 化 参数 。 新 增 的 正则 项 ， 其 功能 是 在 所 有 可 能 的 参数 中 ， 增 














加 一 组 特定 参数 的 权重 ， 和 您 神 所 有 值 不 等 于 0 的 参数 2 ， 使 得 最 终 得 到 的 参数 0) 收缩 
(shrink) 于 0， 这 样 做 可 以 降低 参数 的 方差 .但 是 引入 了 偏差 。 线 性 回归 的 参数 用 带 上 标 
的 7 表示 ， 岭 回归 的 参数 与 线性 回归 的 参数 ， 两 者 之 间 的 关系 表示 如 下 : 

_ 9 
^ 1+A 
显而易见 ，4 的 值 越 大 ， 岭 回归 参数 越 向 0 收缩 。 




























































































© 原文 为 “instead of waiting to sum over the entire training set”。 一 一 译 者 注 
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3， 套 索 回 归 


套 索 回归 (asso regression) 算法 与 岭 回归 类 似 ， 唯 一 的 区 别 是 ， 套 索 回 归 的 正则 项 为 
所 有 参数 绝对 值 之 和 ; 


733 t] ea Jal a nono) itm 


i-0 






































Vje0, -M -1 
4. 对 数 几 率 回 归 


对 数 几 率 回 归 (logistic regression) 算法 适用 于 (二 值 ) 分 类 问题 。 因 此 ， 我 们 把 标签 
定义 为 ye0,1。 模 型 用 以 下 对 数 几 率 函 数 来 表示 : 


局 (xX)=— 






































它 的 代价 函数 定义 如 下 : 


J s log(h, Ei ))+ (1= y,)log(1- 5, (x®)) 








更 新 权重 的 规则 ， 其 形式 与 线性 回归 的 相同 (但 模型 的 定义 有 不 同 ): 


ay Mt ae 
39, 7%: So)? Vje0-M-1 











注意 ,数据 点 p WAWER A(x) 是 一 个 介 于 0 到 1 之 间 的 连续 型 值 。 因 此 ， 为 了 预 
测 类 别 标签 ， 我 们 通常 将 h(x”)=0.5 设置 为 净值 ， 阔 值 跟 标 签 对 应 关系 如 下 : 





























20.5 1 


h (x)= 
a") ee 0 














对 数 几率 回归 算法 用 一 对 多 Cone versus all) 或 一 对 一 技术 Cone versus one)， 可 实现 
多 个 类 别 的 分 类 问题 。 一 对 多 方法 ， 包 含 玉 个 类 别 的 分 类 问题 ， 可 通过 训练 玉 个 对 数 几 率 
回归 模型 来 解决 。 处 理 类 别 j 的 模型 ， 将 类 别 j 看 作为 +1， 剩 余 类 别 看 作 0°; 一 对 一 方法 ， 


、 E 洒 日 i|3 d m K(K -1 i Fi 7T 
需要 为 任意 两 个 类 别 训练 一 个 模型 《 共 是 二 一， 个 训练 模型 )。 

































































(D 一 对 多 方法 ， 用 天 个 模型 处 理 被 预测 数据 ， 得 到 天 个 结果 之 后 ， 从 中 选取 预测 值 最 高 的 作为 被 预测 数据 的 类 别 。 一 对 一 方 
法 ， 根 据 少数 服从 多 数 的 原则 ， y ED 个 模型 的 预测 结果 中 选择 出 现 次 数 最 多 的 类 别 ， 作 为 最 终 的 类 别 。 译 者 注 
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3.2.1 广义 线性 模型 的 概率 解释 
前 面 介绍 了 广义 线性 模型 ， 现 在 我 们 来 寻找 满足 如 下 关系 的 参数 9, : 


M-1 
y-2,0x)*e-h "E 02 e, Vie0,-,N-1 
j=0 


对 于 线性 回归 ， 我 们 可 以 假定 s 服从 均值 为 0、 方 差 为 o? 的 正 态 









































e? 等 价 于 : 





I 





p(vx*;6)- 








因而 ， 系 统 的 总 似 然 度 可 以 表示 为 : 
N-I B. ich °) 


uo-Totopoo-Ha-e * 


i=0 i=0 




















对 数 几率 回归 算法 ， 我 们 假定 对 数 几率 函数 自身 就 是 概率 : 














P(y, =1|x;0}= h (x?) 
P(y,= 0x; 0) = 1- h (x) 
么 ， 似 然 度 可 以 表示 为 : 
-fiot po N Con em" 
i=0 i=0 





分 布 ， 其 概率 








述 两 种 情况 ， 最 大 化 似 然 度 等 价 于 最 小 化 代价 函数 ， 因 此 用 相同 的 梯度 下 降 方法 求解 。 


3.2.2 下 近邻 

















k 近邻 (k-nearest neighbours, KNN) 是 Sud 单 的 分 类 (或 回归 ) 方法 。 给 定 
组 特征 向 量 x”iE1,…, N 及 相应 的 标签 yo 待 分 类 的 数据 点 K M KANEDA REL ae 
Ko k 近邻 算法 将 近邻 的 多 个 标签 中 出 现 次 数 最 多 的 分 配给 x ? 。 寻 找 近邻 时 ， 常 用 的 距离 















































度量 方法 有 : 











M-1 
e 欧 氏 距离 (Euclidean): (ee z x y 


j-0 
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M-I 


Q) VO 
2: xj 


j-0 


e 曼哈顿 距离 (Manhattan): 








M-1 


« 闵 氏 距离 (Minkowski): p |o ud 











l/q 
| (如 果 gqg=2， 即 为 欧 氏 距离 ) 


ge 



































若是 回归 问题 计算 y,， 需 要 将 近邻 出 现 次 数 最 多 的 标签 y, KEL, … KERER 
标签 的 均值 。 最 简单 的 均值 〈 或 大 多 数 情况 对 应 哪个 标签 ) 形式 是 各 近邻 的 权重 相同 ， 因 
此 每 个 数据 点 , 不管 它 与 x 实际 距离 有 多 近 , 重要 程度 相同 。 然而 , 也 可 以 使 用 近邻 与 x 
之 间 的 距离 倒 的 加 权 平 均值 。 


3.3 朴素 贝 叶 斯 




























































































朴素 贝 叶 斯 (Naive Bayes) 分 类 算法 是 基于 贝 叶 斯 概率 定理 和 各 特征 之 间 相 互 独立 的 
假设 。 给 定 m 个 特征 x i€0, …, M-1 和 一 组 标签 (类 别 ) yO, …, K-1， 根 据 贝 叶 斯 定 
里 ， 标 签 ec 给 定 特征 集 x, ) 的 概率 为 : 





























Pots |» = c)PQ =c) 
P(xo.., xu a) 





P(y = cleat) 














。 P(x, s Xy PENEIRA: 

。 P( e| xy xy 1) 为 后 验 分 布 ; 

。 PQy=c) 为 前 验 分 布 ; 

。 P(xo,.,xw1) 叫 作证 据 (evidence)。 

预测 特征 x,，iE0, …, M-1 所 属 的 类 别 ， 即 是 求 取 使 得 概率 p 取得 最 大 值 的 标签 : 



































P= arg max Ply A sia ) 








然而 ， 上 面 这 个 式 子 无 法 直接 计算 。 因 此 ， 需 要 做 出 假设 。 























用 条 件 概率 公式 P(4| B) = ， 我 们 可 以 将 前 面 那 个 公式 的 分 子 写成 ; 








P(X, -> Xi |» c)P(y-zc)- P(Y s c)P(x, |» - C) P(X,» Xy |» =C,X))= 
Py sS OP [ys AP |y = 6x) P, aea Dese es 





PO =6)P |y = PG» = 6x) Ply |y = 6x, -. 


， 各 个 特征 x, 是 之 间 相 互 儿 
C 的 知识 就 足够 了 ， 特征 Xo 的 相关 知识 是 多 余 的 ， P(x, p= c) =P (x ly=c, Xp ): 


我 们 的 假设 是 , 给 定 标签 c 


率 ， 只 要 有 标签 


在 该 假设 下 ，) 为 标签 











3 














IB Colon, 要 计 








P(y-c)- [ ^(sbr- 9) 
c 的 概率 等 于 : 
TP(x |y= c)P(y= c)+1 
P(y=c|x Mem 
2 [P(x Po 704 M 


其 








斯 平滑 )。 


由 于 OD. 式 中 的 分 母 对 于 所 有 的 标签 都 是 相同 的 〈 将 标签 所 有 可 
是 通过 最 大 化 中 OD 式 的 分 子 得 





最 终 类 别 的 概率 ， 

















对 于 我 们 一 直 使 
标签 集 y,，iE0, …， 


N 
即 P(y=c)= 











条 件 

















Bayes)。 


EH, P+] 和 分 母 中 的 M 为 常数 项 ， 


JUAR xO, ie0,- 
N-1, POORER Rt We 


概率 P(x, yi UU js BEAR HE 


模型 : 多 项 式 朴 素 贝 叶 斯 CMultinomial Naive Bayes) 和 高 斯 朴素 贝 叶 斯 (Gaussian Naive 





使 








, N-l, # 











j 它 们 是 为 了 避免 出 现 




















到 的 : 





M-1 
p= arg max | |P(x, |» =c)P(y =c) 
olay 








rp x 



































3.3.1 ”多项式 朴素 贝 叶 斯 











REI, REN 
分 布 进行 计算 。 


训 
































能 情况 加 起 来 )， 


R” OM 个 特 
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Xu-2) 

















x, 标签 为 c 的 概 


(D 





0/0 情况 〈 拉 普 拉 


因 





(2) 


AE) 和 相应 的 
c 的 样 例 的 频数 ， 








我 们 接 下 来 讨论 两 








































































































假定 我 们 想 判断 一 封 由 一 组 词 x) = ss ot.) 组 成 的 邮件 s 是 否 是 垃圾 邮件 ， 如 果 
是 则 为 1， 不 是 为 0， 因 此 yE0,1。M 为 词汇 量 〈 特 征 数 ) 多 少 。 一 共有 ww, 个 词 
M-1 个 词 ，N 个 训练 样 例 ( 邮 件 )。 

对 于 每 一 封 标 签 为 y 的 邮件 x ox, ;60,.., M-1 表示 单词 j 出 现在 训练 样 例 i 中 
的 次 数 。 例 如 ，x9) 表示 单词 1 或 mw 出 现在 第 3 封 邮件 中 的 次 数 。 我 们 采用 多 项 式 分 布 

















的 似 然 度 : 
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j-0 











上 式 ， 前 面 的 归 一 化 常数 (normalization constant) 可 以 省 略 ， 因 为 它们 不 依赖 于 标签 
区 所 以 不 会 影响 arg max 运算 符 的 运算 结果 。 重 要 的 是 计算 单词 w 在 整个 训练 集 上 的 概率 : 




















25009 
A gag ——= 
2 








ER, N, 表示 标签 为 y 的 单词 KERARI N, 表示 训练 集中 标签 为 》 的 邮件 数 。 


























上 式 相当 于 计算 CD 式 中 的 P(x, by=i) 和 P(x, lp=O)， 也 就 是 计算 多 项 式 分 布 的 似 然 度 。 由 于 
概率 的 指数 运算 结果 很 小 ， 可 能 会 导致 数值 下 溢 ， 因 此 算法 最 后 一 步 2) 常 采用 对 数 概率 形式 : 
































M-1 
p =arg maxlogP(y) — > xlogP(w, |v) 
: a. 


3.3.2 ”高 斯 朴素 贝 叶 斯 




















特征 向 量 x® 若 取 连续 值 ， 则 可 以 使 用 高 斯 朴素 贝 叶 斯 。 例 如 ， 我 们 想 将 图 像 分 为 K 
个 类 别 ， 每 个 特征 7 为 一 个 像素 。 xO 表示 训练 集 第 i 张 图 像 的 第 j 个 像素 。 训 练 集 共 有 N 
张 图 像 ， 其 类 别 为 y, iE0,…, N-1。 给 定 一 张 用 像素 Yt, xy 表示 的 、 未 标记 的 图 像 ， 
公式 OD 中 的 P(x, y=i) 变 为 : 
























































P(x, y=i)=— 











其 中 ， 均 值 为 


























3.4 决策 树 67 





决策 树 


该 类 算法 从 特征 值 中 学 习 ， 生 成 一 套 简单 的 规则 来 分 割 训练 集 ， 预 测 未 知 的 标签 。 例 如 ， 
根据 温度、 风力、 气温 和 气压 的 值 ， 判 断 今天 是 否 需 要 带 爹 ， 这 是 一 个 分 类 问题 。 根 据 过 去 


100 天 的 数据 ， 我 们 可 以 给 出 下 面 这 样 一 个 决策 树 示 例 图 。 样 表 见 表 3.1 (1mbar=100Pa): 


3.4 













































































表 3.1 
湿度 /% 气压 /mbar 风力 /(km/h) 气温 /C x 
56 1021 5 21 是 
65 1018 3 18 E 
80 1020 10 17 ES 
81 1015 11 20 是 






































在 图 3.2 中 ， 小 矩形 中 的 数字 表示 有 多 少 天 带 伴 ， 椭 圆 中 的 数字 表示 有 多 少 天 没 带 伞 。 


湿度 >50% 
[66] GD 

















A 


气压 >1020mbar 


气压 >1015mbar 
C125 


























3.2 ”根据 过 去 100 天 的 数据 记录 ， 预 测 是 否 需要 带 伞 的 决策 树 
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决策 树 有 两 种 类 型 的 节点 ; 

(D 决策 节点 ， 根 据 决策 切 分 数据 集 ， 得 到 两 个 (或 更 多 ) 分 枝 ; 

(2) 叶子 节点 ， 数 据 完成 分 类 后 得 到 这 类 节点 。 

通常 用 最 大 决策 节点 数量 ( 树 的 深度 ) 或 继续 切 分 所 需 最 少数 据点 数量 (常用 2 到 5) 作为 
退出 机 制 。 决 策 树 学 习 的 问题 是 ， 如 何在 所 有 可 能 的 节点 组 合 中 ,构造 一 棵 最 佳 的 树 ， 也 就 是 估 
计 所 要 采用 的 规则 的 层次 ( 换 名 话说 , 第 1 个 节点 用 湿度 还 是 气温 , 以 及 后 续 节点 选用 什么 规则 )。 
更 正式 地 讲 , 给 定 训练 集 x ,ie1,…,N， 其 中 x e R"， 标 签 为 y。 我 们 需要 找 出 在 节点 能 够 
为 数据 5 做 出 最 佳 切 分 的 规则 。 如 果 选 定 的 特征 j 为 过 续 值 ， 每 条 切 分 规则 用 特征 / ME 表 
ms Px ed. SAIS QD: Fx 2 WBS yy (tl Ds Kr. el No 节点 
的 最 佳 切 分 规则 (ty.9) 对 应 的 是 7 函数 的 最 小 值 ， 也 就 是 最 小 不 纯度 。7 函数 用 来 度量 切 分 规则 
在 多 大 程度 上 能 够 将 数据 分 到 标签 不 同 的 分 枝 中 去 (也 就 是 说 , 每 枝 数据 的 标签 混合 程度 最 小 ): 


ny 
M H (Sigm) 
k 














































































































































































































. n, 
KE, j) =H (Sp) + 
k N left 


k 


(t.a) = arg mint (HJ) 











其 中 ，n 和 nn 分 别 表示 左 枝 和 右 枝 数据 点 数量 。 N, 表示 在 节点 上 处， 数据 点 的 数 
量 。 假 定 用 b (5 可 以 是 左 或 右 分 枝 ) 分 村 每 个 目标 值 ! 的 概率 py = 来 表示 ， 度 量 方法 


b 
































In| 





























五 可 以 有 不 同 的 形式 : 
。 ARATE: H(S,) => py log, py 





。 分 枝 的 基尼 不 纯度 (Gini impurity): H(S,) => py- py) 














。 分 类 错误 : H(S,) -1- max(p,) 


255; 
Y» 2 EIL Y. 1 = ie 
e HUS OTH): HS) =È o,- uy. Ku, = 
N, ieN, N, 

































































请 注意 ， 后 者 常用 于 回归 问题 ， 而 前 两 个 多 用 于 分 类 问题 。 还 要 注意 ， 研 究 文献 中 常 
引入 信息 增益 (information gain) XNE, KRR EA k HI HEA (t) yj) 之 间 的 差距 : 


GS n 
IG - H(S,) - It, j) # P HS.) = 2 Pu log, Pus Pu => 
7 k 


























如 果 特 征 j， 有 4 SAY RENTS BU, te aot NA EEE oP BSE Sal RE y o REH 
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数据 分 到 d 个 类 别 中 的 一 个 ， 需 要 计算 d FRAT RAIN HME 
例如 , 我 们 可 以 用 焙 作 为 不 纯度 的 度量 标准 万, 来 确定 第 1 个 节点 0700 的 切 分 规则 。 
如 果 所 有 特征 的 取 值 为 连续 型 值 ， 那 么 就 需要 如 。 假 定 j-0 为 湿度 ， 将 数据 集中 可 能 
的 湿度 值 按 升 序 排列 ， 如 表 3.2 所 示 。 



































oe 


























































































































表 3.2 
h 0 1 98 99 
dr yes no no no 
湿度 58 62 88 89 
«t >= < >= < >= x >= < >= 
是 0 11 14 32 7 20 29 12 78 0 
En 0 89 21 33 13 60 10 49 22 0 
I(x, 0) 0.5 0.99 0.85 0.76 0.76 


























因此 , SERERE EUER PROS (0 =arg min (7(zy ,让 = 58。 我 们 可 以 按照 相同 的 方式 
计算 气温 七 、 风 力 吕 和 气压 总 的 阔 值 。 计 算 完成 后 ， 我 们 就 可 以 计算 4 个 特征 每 个 特征 的 
不 纯度 ， 以 决定 第 1 个 节点 的 最 佳 切 分 规则 ， 见 表 3.3。 























































































































表 3.3 
a d 4 是 带 伞 
= 8 a 
< 0 0 , xO <t 21 32 
湿度 j=0 1 ^um j-l t 1 
Xt 11 89 x g 11 36 
不 纯度 : T(t} ,0)=0.5 不 纯度 : I(t) ,1)=0.88 
E dp 是 "de 
E A a 
xU e 48 5 xen 39 3 
AJI j=2 s 气压 j=3 
xm 1 46 xp 2 45 13 
不 纯度 : 1(12,2)-0.31 不 纯度 : 1(12,3)-0.60 











因而 ， 节 点 0 处 ， 最 佳 切 分 规则 为 : 
(41.4) =arg min (1(5.0).1(5.1).1(6.2).1(5.3)) = (5:2) 


CERERE ty 的 风力 。 我 们 可 以 沿 着 树 往 下 走 ， 重 复 使 用 相同 的 方法 ， 找 出 其 余 决 
策 节 点 的 最 佳 切 分 规则 ， 直 接 到 达 叶 子 节 点 。 
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决策 树 学 习 ， 能 够 处 理 大 型 数 所 


居 集 ， 尺 管 它 的 泛 化 能 力 不 是 很 好 ， 尤 

















大 时 CNMN:M)。 遇 到 这 种 情况 ， 建 议 使 用 深度 较 小 的 树 ， 或 使 用 降 维 技术 。 设 定 进 
是 点 数量 ， 或 设 定 叶 子 节 点 的 最 小 数量 
《overfitting)。 决 策 树 算法 可 能 会 生成 过 于 复杂 的 树 ;， 这 时 可 采 
除 不 影响 预测 质量 的 分 校 。 剪 枝 技术 有 多 种 ， 但 是 它们 超出 了 本 
我 们 还 可 以 同时 训练 多 棵 决策 树 ， 组 成 所 谓 的 随机 森林 Crandom forest)。 随 机 森林 名 
原始 数据 集 随 机 选取 一 部 分 数据 点 训练 一 棵 树 ， 该 树 每 个 决策 节点 的 学 习 





分 所 需 最 少数 














从 
选 





WHIRI 





ETE. ni 





归 问 题 ， 


3.5 支持 向 量 机 


支持 向 量 机 (Support Vector Machine, SVM), 算法 尝试 从 几何 视角 将 数 
N 分 成 标签 为 =+l 和 y=-1 的 两 个 子 集 。 在 
圆 )， 也 就 是 说 由 实 线 表 示 的 决策 边界 (或 超 平面 ) 完全 将 两 个 类 别 分 开 〈 换 句 话 








圆 和 实心 
说 ， 没 有 分 错 类 的 数据 点 ): 





























图 3.3 中 ， 数 
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其 是 特 
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有 助 于 防 1 
Jatt (pruning) 技术 ， 


的 讲解 范围 。 请 注 


8 现 过 拟 合 问题 







































































， 也 使 用 随机 








取 多 棵 决策 树 预 测 结果 的 均值 作为 最 终 预 测 结果 ;而 分 类 问 
题 ， 则 按照 少数 服从 多 数 原则 选取 最 终 预 测 结果 。 





Ft ae x? i€ 1 
居 被 完美 地 分 成 两 个 类 别 ( 空心 
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超 平面 











33 SA (决策 边界 ) 将 数 


j 数 学 语言 可 表示 为 等 式 wx+D= 0， 














集 分 为 








X 











为 超 平面 的 法 线 。 支 持 向 量 机 算法 的 目 











标 是 ， 最 大 化 











际 操 作 中 , 我们 仪 考虑 2 
上 上 ， 与 决策 边界 之 间 的 距离 分 别 为 di 下 














ld, : 
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= 
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类 《空心 和 实心 





-É 为 超 平面 与 原点 之 间 的 距离 ，w 
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各 数据 点 到 决策 边界 之 间 的 距离 。 实 








E 离 决策 边界 最 近 、 叫 作 支 持 向 量 的 数据 点 i。 它 们 位 于 平面 妈 M H, 
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H EFM: wx +b=41, y,=+1 -------- (D 
Ake PT: we x®+b=-1, y;=1 -------- (2) 














超 平 面 与 决策 边界 之 间 的 距离 叫 作 间隔 (margin), BEd =d, WA, 支持 向 量 机 方 
法 要 找 的 就 是 使 得 间隔 最 大 的 w 和 2 的 值 。 
Ay H, M A, 之 间 的 距离 为 二 ， 所 以 间隔 为 二 ， 那 么 支持 向 量 机 算法 等 价 于 求解 如 


Iw lw 



































下 问题 : 


min wf such that y, (w,x + b) -120 Viel,.., N 











为 了 使 用 二 次 规划 方法 求解 这 个 数学 问题 , 我 们 在 上 式 中 添加 了 平方 运算 和 因子 1/2。 然 后 ， 
我 们 使 用 拉 格 朗 日 乘 子 法 将 这 个 问题 改写 为 如 下 拉 格 朗 日 函数 ， 其 中 a >0 为 拉 格 朗 日 乘 子 : 







































































1 2 N-I 四 1 2 N-1 © N-1 
L=—|w| 一 a, y (x *w*b)-1|--lw - May, (x “w+D)+ a, 
2 i=0 2 i-0 i-0 
分 别 对 hw| 和 |b| 求 偏 导数 ， 并 令 导数 为 0， 我 们 得 到 : 
N- i 
w=} aya (33 
i=0 
N-1 
Yay, =0 (4) 
i-0 





优化 过 后 的 拉 格 朗 日 函数 为 : 


pq 


N-I N-I 
i=0 ij i-0 


1 
L= a, 2 0, H,a ja > OVE e 0... N -1 ya =0 


i 





= @ OD 
其 中 ， Hj =y yx A o 


上 式 称 为 原 问 题 的 对 偶 问 题 ， 这 时 我 们 只 要 找到 w, 的 最 大 值 即 可 : 





N-1 


N-I 1 
max Soe Yates |a Zz0vie0,.,N— L5 ya, =0 
i | i=0 ij 


i=0 











用 二 次 规划 方法 求 得 w, >0sES Co, =0 时 ， 返 回 空 向 量 )。 用 公式 〈3) 表示 支持 向 量 w: 
w=} a, y x? (5) 


seS 


wa, 满足 以 下 等 式 〈 结 合式 OD MA (2)): 
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y, =(w-x +b)=1 
Kew HMA (3), PIA SUA y, (+1 或 -1)， 得 到 : 


= (m) | \.(s) 
b=y,— Ya yx X 

















FATA SCBEIR) TN, 的 均值 ， 对 参数 2 的 估计 更 加 准确 : 
b- y». 一 > dy x0 xÀ (6) 




















我 们 根据 式 (5) MA (6) 得 到 了 支持 向 量 机 算法 的 参数 值 。 然 后 ， 就 可 以 用 这 些 参 
数值 定义 的 支持 向 量 机 模型 预测 测试 集 数据 点 上 的 类 别 : 


























x) w+b2loy,=1 


x? 


w 
UY 
如 果 一 条 线 无 法 恰好 将 所 有 数据 点 分 到 两 个 类 别 ， 我 们 需要 允许 数据 点 以 多 大 的 比率 
é >0 被 分 错 类 ， 即 





b <-1—> y, =-l 




















‘wtb21-€>y,=1 





xP -w+b<-1+é ay, 2-1 


我 们 需要 最 大 化 间隔 ， 以 最 小 化 将 数据 点 分 错 类 别 的 情况 。 该 条 件 可 以 表述 为 : 





























N-1 
nin- |wf + C> £such that y, (wx? +b) -1+é 20Viel,..,.N 
i=0 











其 中 ， 参 数 C 用 来 平衡 间隔 大 小 跟 分 类 错误 之 间 的 关系 〈C=0 表示 没有 分 错 类 别 的 ， 
间隔 最 大 化 ，C>1， 很 多 数据 点 分 错 类 别 ， 间 隔 较 小 )。 使 用 跟 之 前 相同 的 方法 ， 可 将 上 面 
这 个 问题 转换 为 带 有 约束 条 件 的 对 偶 问 题 ， 注 意 拉 格 朗 日 乘 子 以 CALF: 






























































N-1 


N-1 1 
nax Soe Este, ena 20Vie 0,..,.N-1, >. y, ,=0 
i | i=0 ij 


i-0 
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到 目前 为 上 上， 我 们 处 理 的 是 二 值 分 类 问题 。 真 实 的 分 类 问题 ， 也 许 有 多 个 类 别 ， 用 文 
持 向 量 机 处 理 多 个 类 别 的 分 类 问题 ， 常 用 的 方法 〈 对 数 几 率 回 归 一 节 讲 过 ) 有 两 种 : 一 对 
多 或 一 对 一 。 给 定 包含 M 个 类 别 的 分 类 问题 : 方法 一 ， 训 练 M 个 SVM 模型， 每 个 为 目标 
类 别 7 输出 +1， 其 余 类 别 输 出 -1。 方 法 二 ， 分 别 为 每 组 类 别 i $0 j 训练 一 个 模型 ， 共 训练 






















































































a D 个 模型 。 显 然 ， 方 法 二 计算 开销 更 大 ， 但 结果 也 更 为 准确 。 
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类 似 ，SVM 也 可 用 于 多 是 介 于 -1 到 1 之 间 的 回归 问题 。 这 时 ,算法 的 目标 是 寻找 参数 
wA b, ff 

















y,=wx +b 
我 们 假设 实际 值 i 可 能 不 同 于 预测 值 y 的 最 大 误差 为 E 。 在 容忍 误差 e 的 基础 上 ， 我 
AT EXE BA ET ME 大 小 的 误差 .这 具体 取决 于 yy 是 大 于 还 是 小 于 1; 。 在 图 3.4 中 ， 
数据 点 i 的 多 个 预测 值 y 围绕 在 实际 值 t 的 周围 ， 同 时 还 给 出 误差 范围 。 


6> 



























































ET >0 
































图 3.4 HIE yy, 分 布 在 实际 值 t 的 周围 











最 小 化 问题 变 为 : 
. 1 N-1 7 E 
min w[ os té ) 








t — y, &e46,,t - y; Z 6.6, >0,¢, »0Vie0,., N-I 
不 难看 出 ， 相 应 的 对 偶 问 题 变 为 : 


N-1 N-1 1 


(ai -a cent a, ) 22 a; (a; -o;)x -x subject 


N-1 
toC 2a;,a, 20Vie0,..,N-1, (a; 一 Qi [jeg 
i=0 

















eee 
a; a; | ^ 
i | i=0 





EB, af. a 为 拉 格 朗 日 乘 子 。 

















NNI y, 可 用 公式 yy = (0; 一 0 )x «at oR BH b RDZA 
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选取 S 的 子 集中 满足 条 件 C>a* 、a, SORE. E =0 的 支持 向 量 求解 ， 取 均值 ”: 
b= 3273 Y (e; 0) yo aae 


N, seS meS 








内 核 技巧 


有 些 数 据 集 在 特定 的 空间 线性 不 可 分 ， 但 转换 到 合适 的 空间 后 ， 可 用 超 平 面 合理 地 将 
数据 分 成 两 个 或 多 个 类 别 。 如 图 3.5 所 示 的 这 个 例子 : 
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图 3.5” 左 侧 的 数据 集 在 二 维 空间 不 可 分 ， 映 射 到 三 维 空间 后 ， 两 个 类 别 变 为 可 分 












































图 3.5， 两 个 类 别 在 二 维 空间 ( 左 图 ) 显然 是 线性 不 可 分 的 。 假 如 我 们 对 数据 应 用 内 核 
IK, 使 得 : 











-四 af 


K(x!,x)=e m 












































现在 就 可 以 用 二 维 平面 ( 右 图 ) 将 数据 分 开 。SVM SUZBUVIERERPSCETEHR]T ABER HY, 的 ， 
记得 用 内 核 函 数 蔡 换 变量 i j 的 点 积 : 


H, = yyy x” x) > H, E xy, K (39,3) 





























CD 原文 为 “averaging on the subset S given by the support vectors associated with the subset C>a,",a;>0 and, & =0”。 一 一 译 者 注 
ging g y pp 


8A Tate T6 
SVM 算法 常用 的 内 核 函 数 有 : 


。 线性 内 核 : A a 
































e 径 向 基 (Radial Basis Kernel, RBF) 内 核 : K(x9,x))=e 20° 
y E r x b 
。 多 项 式 内 核 : Kl ) 2 (x9 x a) 


e Sigmoid 内 核 : (a sm ) E tanh (ax? Bic b) 


3.6 有 监督 学 习 方 法 的 对 比 











我 们 接 下 来 解决 一 个 回归 问题 和 一 个 分 类 问题 ， 以 测试 本 章 前 面 讨论 的 这 几 种 方法 。 
为 了 避免 过 拟 合 问题 ， 数 据 集 分 为 两 部 分 : 训练 集 ， 找 到 能 够 拟 合 模型 的 参数 ;测试 集 
平 估 模 型 的 正确 率 。 然 而 ， 也 许 还 有 必要 使 用 第 3 个 集合 验证 集 ， 优 化 超 参 数 
(hyperparameter， 比 如 SVM 的 C 和 E€E、 岭 回归 的 xc)。 原 始 数据 集 也 许 太 小 ， 因 此 分 成 三 
份 不 合适 。 此 外 ， 算 法 的 结果 也 许 会 受到 训练 集 、 验 证 集 和 测试 集 所 选用 的 特定 数据 点 的 
影响 。 这 两 个 问题 ， 常 用 的 解决 方法 是 ， 用 交叉 检验 方法 评估 模型 一 一 将 数据 集 分 成 个 
子 集 〈 叫 作 折 )， 并 按 如 下 步骤 训练 模型 。 

。 用 1 折 数 据 作为 训练 数据 训练 模型 。 

。 用 剩余 数据 测试 得 到 的 模型 。 

。 重复 以 上 步骤 上 次 《一 开始 确定 的 折 数 )， 每 次 用 另外 k1 折 数 据 训练 〈 因 此 每 次 

使 用 的 测试 集 也 就 不 同 )。 对 大 次 欠 代 得 到 的 正确 率 取 均 值 ， 得 到 最 终 的 正确 率 。 

3.6.1 回归 问题 


下 面 我 们 结合 波士顿 郊区 房屋 数据 集 评 估 各 种 回归 算法 的 优 劣 ， 该 数据 集 可 从 
http://archive.ics.uci.edu/ml/datasets/Housing 和 作者 GitHub 主页 本 章 的 文件 夹 中 下 载 
(https://github.com/ai2010/machine learning for the web/tree/master/chapter 3/)。 这 一 部 分 的 
代码 也 可 从 该 文件 夹 找到 。 房 屋 数据 集 共 有 13 个 特征 。 

。 CRIM: 城镇 人 均 犯 罪 率 ; 


。 ZN: 每 2.5 万 平方 英尺 土地 中 ， 规 划 的 住宅 用 地 的 比例 ; 
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。 INDUS: 每 个 城镇 用 于 非 零 售 业务 土地 的 比例 ; 

e CHAS: 查尔斯 河 ， 呈 变量 (靠近 河 为 1; 否则 为 0); 

。 NOX: 氮 氧 化 物 的 浓度 〈 百 万 分 之 一 )， 

。 RM: 住所 平均 拥有 的 房间 数 ; 

e AGE: 建 于 1940 年 之 前 的 业主 自 住房 比例 ; 
。 DIS: 与 波士顿 5 个 就 业 中 心 距离 的 加 权 值 ; 
© RAD: 驶 往 放 射 状 高 速 公路 的 便捷 指数 ; 

e TAX: 每 $10000 美元 ， 全 额 地 税 税率 ; 

e PTRATIO: 城镇 师 生 比例 ; 

e B: 1000(Bk - 0.63)2, HB Bk 为 城镇 黑人 人 口 的 比例 ; 

。 LSTAT: 住房 条 件 较 差 人 口 的 比例 ， 我 们 想 预 测 的 是 房屋 价值 MEDV (以 $1000 计 )。 


为 了 评估 模型 的 质量 ， 我 们 计算 模型 的 均 方 误差 和 判定 系数 R* (coefficient of 
determination). R° 的 定义 为 : 






















































































Ap, y" 表示 模型 给 出 的 预测 标签 。 


若 模 型 完美 地 拟 合 数据 ，R?=1， 模 型 的 预测 效果 达到 最 佳 。 而 R^ -0 时 ， 模 型 为 一 条 
恒 等 的 直线 (如果 为 负数 ， 那 就 表明 拟 合 程 度 很 糟糕 )。 下 面 代码 ,训练 线性 回归 、 怜 回归 、 
套 索 回归 和 SVM 回归 模型 ， 并 计算 各 自 的 均 方 误差 和 判定 系数 ， 我 们 用 到 了 sklearn Æ 
(Python notebook 版 代码 文件 请 见 https://github.com/ai2010/machine learning for the web/tree/ 
master/chapter_3/). 













































































In [4]: import pandas as pd 
import numpy as np 
from sklearn import cross_validation 
from sklearn import svm 
from sklearn.tree import DecisionTreeRegressor 
from sklearn.ensemble import RandomForestRegressor 
from sklearn.linear_model import LinearRegression 
from sklearn.linear_model import Ridge 
from sklearn.linear_model import Lasso 
from sklearn.neighbors import KNeighborsRegressor 
from sklearn.metrics import mean squared error 
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In [7]: 


df = pd.read_csv('housing.csv',sep=',',header=None) 
#shuffle the data 

df = df.iloc[np.random.permutation(len(df))] 

X= df[df.columns[:-1]].values 

Y = df[df.columns[-1]].values 


cv = 10 

print 'linear regression' 

lin = LinearRegression() 

scores = cross_validation.cross_val_score(lin, X, Y, cv=cv) 
print("mean R2: $0.2f (+/- %0.2£)" % (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(lin, X,Y, cv-cv) 

print 'MSE:',mean squared error(Y,predicted) 


print 'ridge regression' 

ridge - Ridge(alpha-1.0) 

Scores - cross validation.cross val score(ridge, X, Y, cv-cv) 
print("mean R2: $0.2f (+/- %0.2£)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(ridge, X,Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'lasso regression' 

lasso = Lasso(alpha-0.1) 

Scores - cross validation.cross val score(lasso, X, Y, cv-cv) 
print("mean R2: $0.2f (+/- $0.2f£)" % (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(lasso, X,Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'decision tree regression' 

tree - DecisionTreeRegressor(random state-0) 

Scores - cross validation.cross val score(tree, X, Y, cv-cv) 
print("mean R2: $0.2f (+/- %0.2£)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(tree, X,Y, cv-cv) 

print 'MSE:',mean squared error(Y,predicted) 


print 'random forest regression' 

forest = RandomForestRegressor(n estimators-50, max depth-None,min samples split-1, 
random state-0) 

Scores - cross validation.cross val score(forest, X, Y, cv-cv) 

print("mean R2: $0.2f (+/- %0.2£)" $ (scores.mean(), scores.std() * 2)) 

predicted - cross validation.cross val predict(forest, X,Y, cv-cv) 

print 'MSE:',mean squared error(Y,predicted) 

#svm 

print ‘linear support vector machine’ 

svm lin = svm.SVR(epsilon-0.2,kernel-'linear',C-1) 

Scores = cross validation.cross val score(svm lin, X, Y, cv=cv) 

print("mean R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 

predicted = cross validation.cross val predict(svm lin, X,Y, cv=cv) 

print 'MSE:',mean squared error(Y,predicted) 


print 'support vector machine rbf' 

clf = svm.SVR(epsilon=0.2,kernel='rbf',C=1.) 

scores = cross validation.cross val score(clf, X, Y, cv-cv) 
print("mean R2: $0.2f (+/- %0.2£)" $ (scores.mean(), scores.std() * 2)) 
predicted = cross validation.cross val predict(clf, X,Y, cv=cv) 

print 'MSE:',mean squared error(Y,predicted) 


print 'knn' 

knn = KNeighborsRegressor() 

scores = cross validation.cross val score(knn, X, Y, cv=cv) 
print("mean R2: $0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2)) 
predicted = cross validation.cross val predict(knn, X,Y, cv=cv) 

print 'MSE:',mean squared error(Y,predicted) 
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用 pandas 库 加 载 住房 数据 ， 用 dfiloc[np.random.permutation(len(df)] 打 乱 数 据 的 顺序 ， 
从 而 在 使 用 交叉 检验 方法 时 ， 保 证 各 折 数 据 是 随机 选取 的 《我 们 使 用 10 折 )。 各 算法 的 输 
出 结果 如 下 : 


linear regression 

mean R2; 0.72 (+/- 0.15) 
MSE: 23.5515499366 

ridge regression 

mean R2: 0.72 (+/- 0.16) 
MSE: 23.7397585761 

lasso regression 

mean R2: 0.71 (+/- 0.17) 
MSE: 24.734860679 
decision tree regression 
mean R2: 0.75 (+/- 0.24) 
MSE: 19.8023913043 
random forest regression 
mean R2: 0.87 (+/- 0.12) 
MSE: 10.9910313913 
linear support vector machine 
mean R2: 0.70 (+/- 0.25) 
MSE: 25.833801836 
support vector machine rbf 
mean R2: -0.01 (+/- 0.11) 
MSE: 83.8283880541 

knn 

mean R2: 0.54 (+/- 0.23) 
MSE: 37.8792632411 



























































随机 森林 算法 〈50 棵 树 ) 训练 的 模型 对 数据 的 拟 合 程度 最 高 ; 它 返 回 的 判定 系数 均 
值 为 0.86，MSE=11.5。 决 策 树 回 归 符 合 预期 ， 它 的 及 比 随机 森林 小 ，MSE 则 比 随 机 森 
林 高 〈 这 两 个 指标 分 别 为 0.67 和 25)。 内 核 为 rbf (C=1, €=0.2) 的 支持 向 量 机 是 最 差 
的 模型 ,其 MSE 高 达 83.9，R? 则 为 0.0。 而 线性 内 核 SVM 是 一 个 非常 出 色 的 模型 CR? 
fil MSE 分别 为 0.69 和 25.8)。 套 索 回归 和 上 岭 回 归 ， 结果 相差 不 大 ，R? 和 MSE 分 别 约 为 
0.7 和 24。 提 升 模型 效果 的 一 个 重要 方法 就 是 特征 选取 。 因 为 在 所 有 特征 中 ， 往 往 只 有 
一 部 分 特征 适用 于 模型 训练 ， 而 其 他 特征 也 许 对 模型 的 RR? 没有 任何 贡献 。 特 征 选取 也 
和 会 改善 RR ， 因 为 将 起 误导 作用 的 数据 排除 在 外 ， 同 时 训练 时 间 也 会 相应 缩短 (考虑 
的 特征 更 少 )。 

为 特定 模型 抽取 最 佳 特征 , 方法 有 很 多 , 我 们 将 探索 递归 特征 消除 法 (Recursive Feature 
Elimination，RSE)， 它 只 选取 具有 最 大 绝对 权重 的 特征 ， 直 到 特征 的 数量 满足 为 止 。SVM 
算法 ， 权 重 就 是 w 的 值 ， 而 回归 算法 ， 权 重 为 模型 的 参数 9。 我 们 接 下 来 利用 sklearn 的 内 
AKA RFE, H 4 个 最 佳 特征 (best_features〉 来 观察 模型 的 预测 效果 : 
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In [9]: 





from sklearn.feature_selection import RFE 

best_features=4 

print ‘feature selection on linear regression’ 

rfe lin = RFE(lin,best features).fit(X,Y) 

mask - np.array(rfe lin.support ) 

Scores - cross validation.cross val score(lin, X[:,mask], Y, cv-cv) 
print("R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(lin, X[:,mask],Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'feature selection ridge regression' 

rfe ridge - RFE(ridge,best features).fit(X,Y) 

mask - np.array(rfe ridge.support ) 

scores = cross validation.cross val score(ridge, X[:,mask], Y, cv=cv) 
print("R2: $0.2f (+/- $0.2f)" % (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(ridge, X[:,mask],Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'feature selection on lasso regression' 

rfe lasso - RFE(lasso,best features).fit(X,Y) 

mask - np.array(rfe lasso.support ) 

scores = cross validation.cross val score(lasso, X[:,mask], Y, cv=cv) 
print("R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(lasso, X[:,mask],Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'feature selection on decision tree' 

rfe tree - RFE(tree,best features).fit(X,Y) 

mask - np.array(rfe tree.support ) 

Scores = cross validation.cross val score(tree, X[:,mask], Y, cv=cv) 
print("R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(tree, X[:,mask],Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print ‘feature selection on random forest' 

rfe forest - RFE(forest,best features).fit(X,Y) 

mask - np.array(rfe forest.support ) 

Scores - cross validation.cross val score(forest, X[:,mask], Y, cv-cv) 
print("R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(forest, X[:,mask],Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'feature selection on linear support vector machine' 

rfe svm - RFE(svm lin,best features).fit(X,Y) 

mask - np.array(rfe svm.support ) 

scores = cross validation.cross val score(svm lin, X[:,mask], Y, cv=cv) 
print("R2: $0.2f (*/- $0.2f)" € (scores.mean(), scores.std() * 2)) 
predicted = cross validation.cross val predict(svm lin, X,Y, cv=cv) 
print 'MSE:',mean squared error(Y,predicted) 
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俞 出 为 : 








feature selection on linear regression 
R2: 0.61 (+/- 0.31) 

MSE: 33.182126206 

feature selection ridge regression 

R2: 0.61 (+/- 0.32) 

MSE: 33.2543979822 

feature selection on lasso regression 
R2: 0.68 (+/- 0.20) 

MSE: 27.4174043724 

feature selection on decision tree 

R2: 0.70 (+/- 0.35) 

MSE: 24.1185968379 

feature selection on random forest 

R2: 0.84 (+/- 0.14) 

MSE: 13.6755712332 

feature selection on linear support vector machine 
R2: 0.60 (+/- 0.33) 
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RFE 函数 返回 布尔 值 列表 (用 RFE 函数 的 support 属性 得 到 该 列表 )， 表 明 选 择 了 哪些 特征 
CLA true). 和 没有 选择 哪些 特征 〈 值 为 false )。 我 们 用 选择 的 特征 评估 前 面 所 讲 的 几 个 模型 。 

即使 仅 使 用 4 个 特征 ， 最 佳 模 型 仍 是 由 50 棵 树 组 成 的 随机 森林 算法 ， 它 的 R? 只 是 稍微 低 于 
用 全 部 特征 训练 得 到 的 模型 (0.82 和 0.86 的 差距 )。 其 余 模 型 一 一 套 索 回归 、 岭 回归 、 决 策 树 和 
线性 SVM 回归 一 一 它们 的 R? 与 随机 森林 有 较 大 的 差距 , 但 比 起 之 前 用 全 部 特征 训练 得 到 的 模型 ， 
结果 依旧 可 观 。 请 注意 ， 由 于 KNN 算法 不 支持 为 特征 加 权 ， 因 此 无 法 使 用 REF 方法 抽取 特征 。 


3.6.2 分 类 问题 


我 们 用 汽车 质量 (inaccurate、accurate、good 和 very good) 评估 数据 集 ， 训 练 本 章 学 
习 的 分 类 器 。 该 数据 集 含 有 6 个 描述 汽车 主要 特点 的 特征 (购买 时 的 价格 、 维 护 成 本 、 车 
门 数 量 、 核 载 人 数 、 后 备 箱 大 小 和 安全 性 )。 该 数据 集 可 以 从 http://archive.ics.uci.edu/ 
ml/datasets/Cart+Evaluation 或 我 的 GitHub 主页 本 章 文 件 夹 下 载 ， 代 码 也 放 到 这 里 了 
(https://github.com/ai2010/machine_ learning for the web/tree/master/chapter 3/2. 我 们 用 准确 
率 (precision), AEX (recall) 和 了 值 评估 算法 的 正确 性 。 给 定 一 个 只 包含 两 个 类 别 ( 正 
类 和 负 类 ) 的 数据 集 ， 我 们 将 正确 标记 为 正 类 的 数据 点 称 为 真正 类 (true positive, tp), ix 
标记 为 正 类 的 点 称 为 假 正 类 (false positive， 印 )， 误 标记 为 负 类 的 点 称 为 假 负 类 (false 
negative，fn)。 有 了 以 上 定义 ， 我 们 就 可 以 给 出 准确 率 "、 召 回 率 和 / 值 的 公式 : 
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t 
Precision = P 
tp + fn 
Recall = ip 
Ip + fn 


f 5 ( precision - recall ) 
— measure — 





( precision + recall) 


分 类 问题 ， 对 于 类 别 C 而 言 ,准确 率 (1.0) 指 分 到 类 别 C 的 每 个 数据 点 实际 属于 类 别 
C (不 关注 C 类 数据 点 是 否 分 错 类 )， 召 回 率 为 1.0 则 指 C 类 数据 点 都 分 到 C 类 (但 是 不 关 
注 其 他 数据 点 是 否 被 误 分 到 C 类 )。 

多 个 类 别 分 类 问题 ， 有 多 少 种 类 别 标签 ， 这 些 度量 指标 就 计算 多 少 次 。 每 次 将 一 个 类 
别 当 作 正 类 ， 其 余 当 作 负 类 。 然 后 对 三 种 不 同 指标 的 计算 结果 分 别 取 均值 ， 以 此 来 估计 总 
EAR ARM fI. 
















































































$ 
O 原 书 准确 率 公 式 有 误 ， 实 际 为 Precision=— 
tp fp 





。 一 一 译 者 注 
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为 汽车 数据 集 分 类 代码 如 下 。 首先, 导入 所 有 的 库 ,并 将 数据 导入 为 pandas 的 DataFrame 对 象 。 








In [1]: import pandas as pd 
import numpy as np 
from sklearn import cross_validation 
from sklearn import svm 
from sklearn.tree import DecisionTreeClassifier 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.naive bayes import MultinomialNB 
from sklearn.linear model import LogisticRegression 
from sklearn.neighbors import KNeighborsClassifier 
from sklearn.metrics import fl score 
from sklearn.metrics import precision score 
from sklearn.metrics import recall score 


In [10]: read data in 
df = pd.read csv('data cars.csv',header-None) 
for i in range(len(df.columns)): 
df[i] = df[i].astype('category') 
df.head() 





91107 | [o [1 jajaja [s [e 








ne i oe [s 


3 van van [2 2 med [low | unace| 
[sen | vene 2 mec [med] unace 














下 面 几 个 特征 ， 特 征 值 为 类 别 型 











buying 0 v-high, high, med, low 
maintenance 1 v-high, high, med, low 
doors 2 2, 3, 4, 5-more 
persons 3 2, 4, more 

lug_boot 4 small, med, big 

safety 5 low, med, high 


car evaluation 6 unacc,acc,good,vgood 

















将 这 些 特征 值 转换 为 分 类 算法 里 使 用 的 数字 : 














In [14]: #map catgories to values 


map0 = dict( zip( df[0].cat.categories, range( len(df[0].cat.categories )))) 


#print mapO 


map3 dict( zip( df[3].cat.categories, range( len(df[3].cat.categories )))) 
map4 dict( zip( df[4].cat.categories, range( len(df[4].cat.categories )))) 
map5 - dict( zip( df[5].cat.categories, range( len(df[5].cat.categories )))) 
map6 = dict( zip( df[6].cat.categories, range( len(df[6].cat.categories )))) 


cat cols - df.select dtypes(['category']).columns 
df[cat cols] = df[cat cols].apply(lambda x: x.cat.codes) 


df = df.iloc[np.random.permutation(len(df))] 
print df.head|)| 


012 34 5 6 
570 0010112 
951 2330012 
1633 1 1.0 1 12 0 
412 3 1 3 0022 
156 3.0 1 2 1 1 2 


= dict( zip( df[1].cat.categories, range( len(df[1].cat.categories )))) 
map2 = dict( zip( df[2].cat.categories, range( len(df[2].cat.categories )))) 
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因为 我 们 需要 计算 和 保存 所 有 方法 分 类 效果 的 度量 指标 ， 为 此 我 们 编写 一 个 标准 函数 
CalcMeasures， 将 类 别 标 签 向 量 了 和 特征 向 量 针 分 开 : 




















In [40]: df fl = pd.DataPrame(columns=[ ‘method’ ]+sorted(map6, key=map6 .get)) 
df precision = pd.DataFrame(columns*-['method']*sorted(map6, key=map6.get)) 
df recall = pd.DataFrame(columns-['method']*sorted(map6, key=map6.get)) 
def CalcMeasures(method,y pred,y true,df fledf f1 
df precisionsdf precision,df recall=df recall): 


df fl.loc[len(df f1)] = [method]*list(fl score(y pred,y true,average-None)) 
df precision.loc[len(df precision)] = [method]*list(precision score(y pred,y true,average-lone)) 
df recall.loc[len(df recall)] = [method]*list(recall score(y pred,y true,average-None)) 


X= df[df.columns[:-1]].values 
Y = df[df.columns[-1]].values 




















我 们 采用 10 折 交 叉 检 验 ， 代 码 如 下 : 








In [41]: cv = 10 
method = ‘linear support vector machine’ 
clf = svm.SVC(kernel='linear',C=50) 
y_pred = cross validation.cross val predict(clf, X,Y, cv=cv) 
CalcMeasures(method,y pred,Y) 


method = 'rbf support vector machine' 

clf = svm.SVC(kernel-'rbf',C-50) 

y pred = cross validation.cross val predict(clf, X,Y, cv=cv) 
CalcMeasures(method,y pred,Y) 


method - 'poly support vector machine' 

clf = svm.SVC(kernel-'poly',C-50) 

y pred = cross validation.cross val predict(clf, X,Y, cv=cv) 
CalcMeasures(method,y pred,Y) 

n = 'decision tree' 

clf = DecisionTreeClassifier(random state-0) 

y pred = cross validation.cross val predict(clf, X,Y, cv=cv) 
CalcMeasures(method,y pred,Y) 


method - 'random forest' 

clf = RandomForestClassifier(n estimators-50,random state-0,max features-None) 
y. pred = cross validation.cross val predict(clf, X,Y, cv=cv) 
CalcMeasures(method,y pred,Y) 


method - 'naive bayes' 

clf = MultinomialNB() 

y_pred = cross validation.cross val predict(clf, X,Y, cv=cv) 
CalcMeasures(method,y pred,Y) 


method = ‘logistic regression' 

clf = LogisticRegression() 

y_pred = cross validation.cross val predict(clf, X,Y, cv-cv) 
CalcMeasures(method,y pred,Y) 


method - 'k nearest neighbours' 

clf - KNeighborsClassifier(weights-'distance',n neighbors-5) 
y pred = cross validation.cross val predict(clf, X,Y, cv=cv) 
CalcMeasures(method,y pred,Y) 











我 们 将 各 种 分 类 算法 的 f 值 、 准 确 率 和 召回 率 这 3 个 指标 的 度量 结果 存储 到 DataFrame 
对 象 中 : 
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In [45]: df £1 


7 krewesrearoows |os0ro0n [osoasa oerzon ons 


In [46]: df precision| 


bereit rai on 
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In [47]: df recall| 


ace [oos [uen [vos | 
0 | linear support vector machine 0.530303 | 
1 [0.287080] 


tenner vesir mocnine [sera 
0 
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每 个 指标 、 每 种 分 类 算法 ， 都 要 计算 4 次 一 一 “car evaluation ”有 多 少 个 不 同 的 类 别 


Zacin vee 
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标签 ， 就 计算 多 少 次 。 按 照 如 下 类 别 标签 和 索引 的 对 照 关 系 填 充 DataFrame 各 列 的 值 。 





taeco'i (0, *unacoc'$ 2, 'good'i 1, "'vgood'; 3 





从 以 上 输出 结果 可 见 ， 最 佳 模型 为 rbf 内 核 CC=50) SVM， 但 随机 森林 (50 PRAY) 和 
决策 树 的 分 类 能 力也 很 出 色 〔 对 于 以 上 4 个 类 别 ， 各 项 指标 均 在 0.9 之 上 )。 朴 素 贝 叶 斯 、 
对 数 几 率 回归 和 线性 内 核 CC=50) SVM 训练 的 模型 表现 较 差 ， 尤 其 是 对 于 accurate. good 
和 very good 3 个 类 别 ， 准 确 率 、 召 回 率 和 了 值 3 个 指标 均 不 理想 ， 因 为 只 有 少数 数据 点 打 
有 以 上 类 别 标签 : 













































































In [42]: labels counts-df[6].value counts() 
pd.Serips(map6).map(labels counts) 


Out[42]: acc 384 
good 69 
unacc 1210 
vgood 65 





dtype: int64 








从 百分比 情况 来 看 ，very good (vgood) 和 good 分 别 为 3.993% 和 3.762%, accurate 
为 22.222%， 而 inaccurate 为 70.0223% 。 因 此 我 们 可 以 得 出 这 样 的 结论 : 这 些 算法 不 适合 
预测 数据 集中 的 小 众 类 别 。 


3. 7 ” 隐 马 尔 可 夫 模 型 
































虽然 严格 来 讲 ， 该 方法 不 能 算 作 有 监督 学 习 算法 ， 但 它 也 可 以 处 理 类 似 分 类 这 样 的 问 
题 ， 因 此 我 们 决定 讲 一 讲 该 方法 。 为 了 帮助 你 更 好 理解 ， 我 们 结合 一 个 例子 来 讲 。 例 如 ， 
推销 员 站 在 你 面前 ， 怎 样 通过 观察 他 说 话 时 的 眼神 (目光 接触 、 向 下 看 、 向 一 侧 看 ， 观 察 
结果 O; 分 别 取 0、1 和 2)， 预 测 他 是 否 在 撒谎 (两 个 状态 wiE 0,1)。 假 如 你 观察 到 他 的 眼 
神 序列 O= 0,,0,,0,,0,,0,,., 为 0, 1, 0, 2,…， 我 们 想 推断 在 连续 的 1、 t+1 时 刻 (推销 员 
说 前 后 两 句 话 时 )， 状 态 S; 的 转移 矩阵 A: 


































































































[0.7 0.3 
4-log sal? = 2a =1L,4, =P(s, at tells, at t) 


。 JERE A 的 每 个 元 素 w 表示 给 定 1 时 刻 的 状态 8 H1 时 刻 位 于 状态 S; 的 概率 。 因 而 ， 
0.3( dy, ) 表 示 推 销 员 t 时 刻 撒 谎 之 后 ，t+1 时 刻 不 再 撒谎 的 概率 ，0.6(aw, ) 表 示 先 不 
撒谎 、 后 再 撒谎 的 概率 ，0.7(au) 表 示 他 接连 在 p. l 时 刻 撒谎 的 概率 ，0.4(o) 
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表示 他 t 时刻 是 真诚 的 ，t+1 时 刻 仍 不 撒谎 的 概率 。 类 似 地 ， 我 们 还 可 以 定义 矩阵 
2， 将 他 是 否 撒谎 两 种 状态 和 3 种 可 能 的 行为 联系 起 来 : 


0.7 0.1 0.2 
D k)=Jb (k)=1,b, (k) P 
[o1 os 03°C) È b, (#) = 1,8, (E) P(E at iis, at t) 


B 中 的 元 素 bj 表示， 给 定 1 时 刻 的 状态 s,，t 时 刻 观 察 到 上 的 概率 。 例 如 ，0.7(2oo)、 
0.1( by, 和 0.2(b,) 分 别 表示 ， 我 们 观察 到 推销 员 以 下 行为 后 ， 他 撒谎 的 概率 一 一 目光 接触 、 
向 下 看 和 向 一 侧 看 。 是 否 撒谎 和 3 种 行为 之 间 的 关系 表述 如 图 3.6 所 示 : 
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没有 撒谎 


目光 接触 
向 下 看 向 下 看 
向 一 侧 看 ; 向 一 侧 看 














图 3.6 推销 员 行 为 一 一 包含 两 个 状态 的 隐 马 尔 可 夫 模 型 

















推销 员 的 初始 状态 分 布 ， 可 以 定义 为 三 [0.6,0.4] CO 时 刻 说 第 1 句 话 时 ， 他 说 谎 的 可 能 
性 稍 大 一 些 )。 请 注意 ， 和 拖 阵 x. A. B 为 行 随机 和 矩阵 Crow stochastic)， 每 行 元 素 之 和 为 1， 
并 且 每 行 跟 时 间 没 有 直接 关系 。 隐 马尔 可 夫 模 型 (Hidden Markov Model, HMM) 由 3 个 
ERE ZAM CA-(Gn A, 下)， 描 述 的 是 观察 序列 O-0,,0,-.0, , 和 相应 的 隐藏 状态 序列 
S= Sp So 9 之 间 的 关系 。 该 算法 通常 使 用 如 下 标记 符号 : 

e 了 为 观察 序列 O = 0O,,0,….,O，、 隐 藏 状态 序列 8 = Sy Sr Sra 的 长 度 ; 

e N 为 模型 中 可 能 〈 隐 藏 ) 的 状态 数量 ; 


E.» 


e M 为 可 能 的 观察 结果 数量 : Ok, k€0,1,, M-1; 
。 A 为 状态 转换 矩阵 ; 



































































































































出 | 











L 




















(D 又 称 发 射 概率 和 矩阵。 好 的 行 表示 状态 ， 列 表示 行为 。 该 例 中 ，B 的 第 0 行 ， 状 态 为 撒谎 ， 第 1 行 状 态 为 不 撒谎 。 第 0 列 ， 
光 接 触 ， 第 1 列 ， 向 下 看 ; 第 2 列 向 一 侧 看 。 译 者 注 
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。 也 为 观察 概率 矩阵 ; 
。 为 初始 状态 的 概率 分 布 。 
推销 员 有 没有 撒谎 这 个 例子 ，M=3、N=2。 假 如 我 们 想 根据 自己 观察 到 的 推销 
为 序列 0 = 0O,,O,,…,O,,， 预 测 他 在 讲话 过 程 SyS Sra 有 没有 撒谎 。 我 们 可 以 
个 状态 序列 5 的 概率 ， 找 出 最 可 能 的 状态 序列 : 
P(S)=z, b. (O, )a,. b, .(0.).. ug, TUR (O,_,) 


例如 ， 时 刻 六 4、 状 态 序列 S=0101 和 观察 序列 O=1012 HO: 
p(0101) = 0.6(0.1)(0.3)(0.1)(0.6)(0.1)(0.3)(0.3) = 9.722 x 10° 


同 理 , 我 们 可 以 计算 其 他 所 有 隐藏 状态 组 合 的 概率 ,从 而 找 出 最 可 能 的 序列 5。 
算法 能 够 高 效 地 找 出 最 可 能 序列 S$。 它 计算 的 是 从 时 刻 0 到 时 刻 C ECEE SES] T-1 

















































































































的 局 部 序列 Cpartial sequence) 的 最 大 概率 。 实 际 应 用 中 ， 我 们 需要 计算 以 下 几 个 量 : 








© 5, -zb(0,) iE0…Nl 


。 对 于 1,1 Fl i90, …,N-1, 来 自 状态 j 的 所 有 可 能 路 径 中 , 1 时刻 在 状态 











员 的 行 
计算 每 


Viterbi 
DEAD 


a 


i 的 最 


大 概率 : 65 (i)= max [6r- 14 b; (O, ,)] o Ô (i) 的 最 大 值 对 应 的 局 部 序列 是 从 时 刻 0 


jivi 


v 


到 + 最 可 能 的 局 部 序列 。 
° a MD Md RUE 
例如 ， 给 定 上 面 这 个 模型 ， 长 度 为 六 2 的 、 最 可 能 的 序列 计算 方法 如 下 ?: 
e P(10)=0.0024 























© P(00)=0.0294 


Q 





因此 5,(0)=P(00)=0.0294 


P(01)-0.076 

e P(11)-0.01 

”因此 51(1)=P(01)=0.076 

最 终 最 可 能 的 序列 是 00〈 连 续 两 句 话 都 撒谎 )。 












































(D S-0101 表示 先 撒谎 ， 后 不 撒谎 ， 然 后 再 撒谎 ， 最 后 不 撤 谎 。O=1012 表示 先 向 下 看 ， 又 目光 接触 ， 然 后 又 向 下 看 ， 最 后 向 

















侧 看 。 计 








算 p(0101) 的 式 子 ，8 个 概率 值 依次 是 一 上 来 就 撤 谎 的 概率 ， 撒 谎 时 向 下 看 的 概率 、 撒 谎 转 移 至 不 撒谎 状态 的 概率 、 不 撒谎 时 














光 接 触 的 














概率 、 不 撒谎 转移 至 撒谎 状态 的 概率 、 撒 谎 时 向 下 看 的 概率 、 撒 谎 转 移 至 不 撒谎 状态 的 概率 、 不 撒谎 时 向 一 侧 看 的 概率 。 
© P(10), P(01)ftl P(11)3 个 结果 疑似 有 误 。 笔 者 提交 了 勘误 ， 尚 在 确认 中 。 译 者 注 











译 者 注 





另 一 种 寻找 最 可 能 序列 的 方法 是 ， 最 大 化 正确 
状态 i 的 概率 都 要 达到 最 大 max (Y (i) 。 我 们 可 以 用 向 后 入 





给 定 状态 i 的 概率 (i) : 





e a,(i)=2,,(O, )ie0,..,N-1 fla, (i) -| 


从 初始 时 刻 到 时 刻 5, HMM 在 时 刻 ¢ 位 


(2, 


1 时 刻 状态 为 i,t 


。 结合 1 时 刻 前 后 位 于 状态 i 的 概率 ， 求 


0,8, = ilā) 











请 注意 ， 以 上 两 种 计算 最 
寻找 最 佳 
HMM 4-(z, A, B) 一 一 可 以 月 





























y (i= 
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=0 
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a (i) B,(i) 


P(o|A) 


1 


X, (0) 





状态 的 数量 ， 也 就 是 说 ， 在 每 个 时 刻 t, 
ik (backward algorithm) 计算 


PRE i, 局 部 观察 序列 的 概率 : a (1) =P 














其 中 +1 < 了 


时 刻 直 到 7-1 时 刻 ， 局 部 序 允 


























态 j 移动 的 概率 定义 为 : 





Y (i j)=P(s,=i,s 


N-1 





1 B f,,(i)=1 iel, N-1 














P(A) 











可 能 序列 的 方法 所 得 到 的 结果 不 一 定 相同 。 


t+1 


= j|0.4) 





最 佳 序列 的 逆 问 题 一 一 给 定 序列 O = Ou,0,，…Or | 和 参数 值 W、M， 寻 





EN (i)ajb; (0...) Bald) 
P(O|A) 








Km, Y()-2YY(ij)forTe0,-,T-2RyY,,(i)  —— 


Bau 


j-0 











m-Welch 算法 描述 如 下 : 























。 初始 化 全 (x A, B) 
o HHO . BO + VENA OIE, NA 


int 





| 的 概率 : B (i) = P(O 03 =i) 
得 了 ( Jj arth (i) 5, (i) 


Nd, 


ER 


H Baum-Welch 算法 迭代 求解 。t 时 刻 位 于 状态 i，t+1 时 刻 向 状 
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。 重新 计算 模型 中 的 各 个 矩阵 : 





























T-2 T-1 
Y (i,j) > 50,0,¥, (j) 
(i) - Y, (i).a; -T5 „b, (0,)= E 
Y (i, j) Y (j) 
t-0 t=0 














KB. 170, ++, N-1; KE0,…, M-1; 6, NAY FS CKronacker symbol), “4 i=j 
时 ， 值 为 1， 否则 为 0。 








。 和 迭代 直到 收敛; a (i) 


t= 








下 一 节 ， 我 们 讲解 如 何 用 Python 代码 实现 这 些 公 式 ， 测 试 HMM 算法 的 效果 。 


HMM 算法 的 Python 实现 








我 们 下 面 要 讨论 的 hmm example.py 文件 照旧 可 从 https://github.com/ai2010/machine_ 
learning for the web/tree/master/chapter 3/ 下 载 。 


我 们 先 定义 一 个 类 ， 传 入 HMM 模型 的 3 个 矩阵 。 








class HMM: 
def init (self): 
self.pi - pi 
self.A A 
self.B B 

















Viterbi 算法 和 正确 状态 最 大 化 用 以 下 两 个 函数 实现 : 

















def ViterbiSequence (self,observations) : 
deltas = [{}] 


seq = {} 
N = self.A.shape[0] 
states = [i for i in range(N) ] 


T = len(observations) 

#initialization 

for s in states: 
deltas[0][s] = self.pi[s]*self.B[s,observations[0]] 
seq[s] = [s] 

#compute Viterbi 

for t in range(1,T): 
deltas. append ({}) 
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newseq = {} 
for s in states: 
(delta,state) = max((deltas[t-1][s0]*self.A[sO,s]*self.B[ 
s,observations[t]],s0) for sO in states) 
deltas[t][s] = delta 
newseq[s] = seq[state] + [s] 
seq = newseq 


(delta,state) = max((deltas[T-1][s],s) for s in states) 
return delta,' sequence: ', seq[state] 


def maxProbSequence (self,observations) : 
N = self.A.shape[0] 
states = [i for i in range(N) ] 
T = len(observations) 
M = self.B.shape[1] 
# alpha t(i) = P(O102... Ot, qt =S_i | hmm) 
# Initialize alpha 
alpha = np.zeros((N,T)) 
c = np.zeros(T) #scale factors 
alpha[:,0] = pi.T * self.B[:,observations[0]] 
c[0] = 1.0/np.sum(alpha[:,0]) 
alpha[:,0] = c[0] * alpha[:,0] 
# Update alpha for each observation step 
for t in range(1,T): 
alpha[:,t] = np.dot(alpha[:,t-1].T, self.A).T * 
self.B[:,observations[t]] 
c[t] » 1.0/np.sum(alpha[:,t]) 
alpha[:,t] = c[t] * alpha[:,t] 
# beta t(i) = P(Ot410 t+2 ... OT | qt- Si , hmm) 
# Initialize beta 
beta = np.zeros((N,T)) 
beta[:,T-1] =1 
beta[:,T-1] = c[T-1] * beta[:,T-1] 
# Update beta backwards froT end of sequence 
for t in range(len(observations)-1,0,-1): 
beta[:,t-1] = np.dot(self.A, (self.B[:,observations[t]] * 
beta[:,t])) 
beta[:,t-1] = c[t-1] * beta[:,t-1] 


norm = np.sum(alpha[: ,T-1]) 
seq ='' 
for t in range(T): 
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g,state = max(((beta[i,t]*alpha[i,t])/norm,i) for i in 
states) 


seq +=str (state) 


return seq 






































FH RE A eis $E n] RE SBE Pia, 所 有 的 &,G)、pB.(i) i€0, … N-1 都 乘 以 


了 一 个 常数 : 
1 


e. =. 
Co = Wa 


> d.) 


j-0 
| Y tre ; 
e. c,— Nl a; (i) = 2,6. 14 ub, (O, ) 3 其 rH a) = a, (i) 
Sa! ,(/)a,b(0,) = 
j-0 




















现在 ， 我 们 可 以 用 推销 员 是 否 撒谎 那个 例子 中 的 矩阵 初始 化 HMM 模型 ， 然 后 月 











定义 的 两 个 函数 计算 最 可 能 的 序列 : 


pi = np.array([0.6, 0.4]) 
A = np.array([[0.7, 0.3], 
[0.6, 0.4]]) 
B = np.array([[0.7, 0.1, 0.2], 
[0.1, 0.6, 0.3]]) 
hmmguess = HMM(pi,A,B) 





日 前 


print 'Viterbi sequence:',hmmguess.ViterbiSequence (np.array([0,1,0,2])) 
print 'max prob sequence:',hmmguess.maxProbSequence (np.array([0,1,0,2])) 


结果 为 : 


Viterbi: (0.0044, 'sequence: ', [0, 1, 0, 0]) 
Max prob sequence: 0100 
















































































FY RET ER RAS Pa Clic. Bea CU. dU. dic) 的 概率 为 0.0044。 


给 定 观 察 序列 和 参数 W、M 之 后 ， 我 们 也 可 以 实现 Baum-Welch 算法 ， 
模型 o 代码 如 下 : 























m 


def train(self,observations,criterion): 


上 面 这 种 特殊 情况 ， 两 种 方法 返回 相同 的 序列 。 修 改 初始 化 时 使 用 的 矩阵 ， 两 种 算法 
也 许 会 给 出 不 同 的 结果 。 我 们 得 到 的 行为 序列 《目光 接触 、 向 下 看 、 目 光 接 触 、 向 一 侧 看 ) 








寻找 最 佳 的 HMM 
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N = self.A.shape[0] 
T = len(observations) 
M = self.B.shape[1] 


A = self.A 
B = self.B 
pi = copy(self.pi) 


convergence = False 
while not convergence: 


# alpha t(i) = P(0102...Ot,qt=Si | hmm) 
# Initialize alpha 
alpha = np.zeros((N,T)) 
c = np.zeros(T) #scale factors 
alpha[:,0] = pi.T * self.B[:,observations[0]] 
c[0] = 1.0/np.sum(alpha[:,0]) 
alpha[:,0] = c[0] * alpha[:,0] 
# Update alpha for each observation step 
for t in range(1,T): 
alpha[:,t] = np.dot(alpha[:,t-1].T, self.A).T * 
self.B[: ,observations[t] ] 
c[t] = 1.0/np.sum(alpha[:,t]) 
alpha[:,t] = c[t] * alpha[:,t] 


48P(O2O 0,0 1,...,0 T-1 | hmm) 
PO = np.sum(alpha[:,T-1]) 
# beta t(i) = P(O t+1 O t+2 ... OT | qt- Si , hmm) 


# Initialize beta 
beta = np.zeros((N,T)) 
beta[:,T-1] 1 
beta[:,T-1] = c[T-1] * beta[:,T-1] 
# Update beta backwards froT end of sequence 
for t in range(len(observations)-1,0,-1): 
beta[:,t-1] = np.dot(self.A, (self.B[:,observations[t]] * 


beta[:,t])) 
beta[:,t-1] = c[t-1] * beta[:,t-1] 


gi = np.zeros((N,N,T-1)); 


for t in range(T-1): 
for i in range(N): 


gamma num = alpha[i,t] * self.A[i,:] * 
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self.B[:,observations[t+1]].T * \ 


beta[:,t+1].T 
gi[i,:,t] = gamma num / P.O 


# gamma t(i) = P(qt = Si | O, hmm) 

gamma = np.squeeze(np.sum(gi,axis-1)) 

# Need final gamma element for new B 

prod - (alpha[:,T-1] * beta[:,T-1]).reshape((-1,1)) 


gamma T = prod/P O 


gamma = np.hstack((gamma, gamma T)) #append one Tore to 


gamma!!! 


newpi = gamma[:,0] 


newA = np.sum(gi,2) / np.sum(gamma[:,:-1],axis-1). 


reshape ((-1,1)) 
newB = copy (B) 


sumgamma = np.sum(gamma,axis=1) 


for ob k in range (M): 


list_k = observations == ob_k 
newB[:,ob k] = np.sum(gamma[:,list k],axis-1) / sumgamma 


if np.max(abs(pi - newpi)) < criterion and \ 
np.max(abs(A - newA)) < criterion and \ 
np.max(abs(B - newB)) < criterion: 


convergence - True; 


A[:],B[:] ,pi[:] = newA,newB,newpi 


self.A[:] = newA 
self.B[:] = newB 
self.pi[:] = newpi 
self.gamma = gamma 























请 注意 ， 上 面 代码 用 到 了 copy 模块 的 浅 复制 方法 ， 因此 新 创建 的 容器 中 装载 的 是 对 原 






























































AXR Cpi, B) 内 容 的 引用 。newpi 和 pi 是 两 个 不 同 的 对 象 , 但 是 newpi[0] 是 pi[0] 的 引用 


























o 


我 们 还 用 NumPy 的 squeeze KAO EIER Y EERE 








观察 序列 0=0,1,0,2， 对 应 的 最 佳 模 型 是 : 


0.0 1.0] 


z - [1.00.0], 4 = 
10 0.0| 





, 








这 表明 ， 状 态 序 列 必 须 以 推销 员 说 真 话 玫 


FD 
H» 


10 00 0.0 
0.0 0.38 0.62 


然后 他 持续 在 撒谎 和 不 撒谎 两 种 状态 











间 摇 摆 。 推 销 员 讲 真 话 
一 侧 看 。 



















































































机 ， 检 验 每 一 位 推销 员 。 























— 
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TI P(O| 和 4)， 取 概率 最 大 
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小 结 93 


《或 不 撒谎 )， 一 定 是 目光 接触 ， 而 撤 谎 时 ， 要 么 向 下 看 ， 要 么 向 














































































































个 视线 特征 ， 每 个 特征 we 有 3 个 可 能 的 取 值 “目光 接触 、 向 下 看 或 向 一 侧 看 ) 3 





这 个 简单 的 HMM 入 门 示例 ， 我 们 假定 每 个 观察 值 都 是 标量 ， 但 真实 应 用 中 ， 每 个 O 
通常 是 由 多 个 特征 组 成 的 向 量 。HMM 算法 常用 来 分 类 , 有 多 少 个 类 别 , 就 训练 多 少 个 HMM 
模型 / ， 预 测 结果 取 概 率 最 高 的 P(COI4 )。 接 着 这 个 例子 往 下 想 ， 假 如 我 们 要 构造 一 台 测 谎 
段 定 推销 员 所 说 的 每 句 话 (观察 结果 )〉 0O, ， 我 们 都 可 以 抽取 : 3 





个 声音 特 















































的 作为 预测 结果 。 























虽然 HMM 算法 已 


3.8 ”小结 


在 本 章 中 ， 我 们 讨 



































了 主要 的 分 类 和 回归 算法 及 其 实现 方法 。 你 应 




















何 用 Python 语言 和 相关 库 Csklearn 和 pandas) 











于 多 个 领域 ， 但 它 在 语音 识别 、 手 写字 和 母 识别 和 行为 识别 领域 表 


该 已 经 理 





正 ， 每 个 特征 v, 有 3 个 可 能 的 取 值 ( 太 大 、 太 小 或 适中 )，3 个 手 部 特征 ， 每 个 特征 有 有 两 
个 可 能 的 取 值 〈 晃 动 或 静止 )。 因 此 ， 观 察 结果 序列 O 可 表示 为 O = (evh) 。 训 练 阶段 ， 
我 们 请 朋友 撒谎 。 我 们 使 用 Baum-Welch 算法 ， 利 用 观察 结果 训练 HMM 4. 。 然 后 ， 我 们 
重复 训练 过 程 ， 再 用 真 话 训 练 和 1。 预测 阶段 ， 我 们 记录 推销 员 所 说 的 话 O， 计 算 P(O|A,) 























实现 这 些 方法 。 











i 
法 的 使 用 场景 ， 并 懂得 如 
£ 











下 一 章 ， 我 们 将 介绍 最 常用 的 Web 数据 挖掘 技术 ， 掌 握 从 Web BH 

















居中 学 习 





Web 34 12:3 
， 其 过 程 











DS 

















ui R38 A TRR A 
民 复 杂 ， 要 用 到 多 种 算法 ， 





Tr ER 
本 章 重 点 讲解 这 些 
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法 。 搜 索引 








的 数据 ， 从 中 抽取 相关 信息 。 


搜索 网 上 内 
擎 ， 拿 到 查询 


i (search query) 之 后 ， 分 析 每 个 网 页 的 数据 ， 找 到 与 查询 词 相 关 的 网 页 。 网 页 中 的 











数据 通常 分 为 网 页 内 容 和 链接 到 其 他 网 页 的 i 


组 成 : 
采集 
抽取 
HAAS 








网 页 的 Web 
内 容 和 预 处 理 网 页 
‘为 数据 结构 















































€ rp ey o ; 


的 解析 器; 
的 索引 器 ; 




















信息 检索 系统 : 根据 文档 与 查询 词 的 相关 程度 ， 找 | 





重要 的 文档 ; 


xi 
X 





co 

















以 某 种 有 意义 的 方式 ， 调 整 各 网 页 顺序 的 夺 
这 些 部 件 的 核心 技术 为 Web 结构 挖 








F 序 算法 。 





HA Web 内 容 挖掘 。 











国 链 接 。 一 般 而 言 ， 搜 索引 擎 由 以 下 部 件 


搜索 引擎 的 Web 爬虫 、 索 引 器 和 排序 机 制 ， 处 理 的 是 Web 的 结构 〈 超 链接 文本 形成 的 
网 络 )。 搜 索引 擎 的 其 余部 分 〈 解 析 器 和 检索 系统 ) 为 Web 内 容 分 析 方法 ， 因 为 要 解析 网 








页 ， 检 索 其 中 的 文本 信息 。 








更 一 步 来 讲 








DS. 
, 














， 对 于 收集 到 的 








分 析 工 具 。 
销 、 咨 询 领域 的 商业 应 


























这 些 重 要 技术 适用 了 
中 ， 都 能 看 到 它们 的 身影 。 本 章 最 后 
现在 ， 我 们 首先 来 讨论 Web Hri 


FA Web 内 容 





Ea 


出 。 




















观 页 ， 我 们 可 以 利用 自然 语言 处 理 技术 深入 分 析 
比如 使 用 潜在 狄 利克 雷 分 布 分 析 (Latent Dirichlet Allocation，LDA)、 意 见 挖掘 或 情 





























取 其 发 表 人 的 主观 看 法 。 因 出 











中 的 内 
感 
在 很 多 市 场 营 























将 讨论 这 些 人 


4 感 分 析 技 术 。 
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4.1 Web 结构 挖掘 














这 一 类 Web 挖掘 技术 ， 有 两 个 主要 任务 ， 一 是 如 何 发 现 网 页 之 间 的 关系 ， 二 是 如 何 利 
链接 结构 找 出 相关 网 页 。 任 务 一 ， 我 们 通常 用 爬虫 疏 取 链接 ， 并 将 爬 取 到 的 链接 和 网 页 
存储 到 索引 器 。 任 务 二 ， 则 要 计算 网 页 的 重要 性 ， 并 按 其 排序 。 


4.1.1 Web Eh 
































(H 






































爬虫 从 一 组 URL FAR) FER, MEARE, EB AMER ENT. 
a, FEM SMES AYP OS AEE. HIKE, AS eC EBENE. 
AMES URL 存储 在 frontier JJK. Tg Ee HERE EIR FU, BATT A TB BE AN 
不 同 的 类 型 ， 比 如 广度 优先 Cbreadth-first) 和 有 倾向 性 (preferential) 的 爬虫 。 广 度 优先 
法 ,下 一 个 要 扑 取 的 URL 来 自 于 frontier 列表 的 头 部 位 置 , 而 新 爬 取 的 URL 则 追加 到 frontier 
列表 的 尾部 。 有 倾向 性 的 朴 虫 ， 则 用 特定 的 重要 性 评估 方法 ， 评 估 未 访问 的 URL 列表 ， 以 
诀 定 先 疏 取 哪个 页 面 。 从 网 页 抽取 链接 需要 用 解析 器 。Web 内 容 挖掘 一 节 会 做 详细 介绍 。 
爬虫 本 质 上 是 一 种 图 搜索 算法 ， 即 按照 特定 规则 ， 检 索 初 始 页 各 相 邻 页 面 的 结构 ， 规 
则 可 以 是 爬 取 的 最 大 链接 数量 〈 图 的 深度 )、 疏 取 的 最 大 网 页 数量 或 时 间 限 制 等 。 然 后 ， 疏 
虫 从 我 们 感 兴趣 的 网 页 《比如 信息 港 hub 和 权威 网 页 authority) 抽取 一 部 分 内 容 。 信 息 ? 
包含 大 量 链 接 的 网 页 ， 而 权威 网 页 指 该 网 页 的 URL. 多 次 出 现在 其 他 网 页 (该 指标 可 衡量 
网 页 的 受 欢迎 程度 )。 我 们 后 面 会 用 Scrapy ERR LTA. Scrapy MER PER 4$ H1. 它 是 用 Python 
实现 的 ， 采 用 并 发 机 制 ( 用 Twisted 框架 实现 异步 编程 ) 加 快 处 理 速度 。Scrapy 的 使 用 教 
程 见 第 7 章 电 影 推 荐 系统 Web 应 用 ， 我 们 要 用 它 从 影评 抽取 信息 。 


4.1.2 索引 器 


索引 器 是 一 种 网 页 存储 方式 ， 它 将 讨 虫 朴 取 到 的 网 页 存储 到 结构 化 数据 库 ， 便 于 后 续 
根据 给 定 的 查询 词 快速 检索 。 最 简单 的 索引 方法 是 直接 存储 所 有 了 网页， 查询 时 ， 查 找 包 含 
关键 词 〈 查 询 词 的 组 成 部 分 ) 的 所 有 文档 。 然 而 ， 如 果 网 页 很 多 (实际 应 用 中 确实 如 此 )， 
由 于 计算 开销 很 大 ， 这 样 做 不 可 行 。 最 常用 的 提升 检索 速度 的 方法 叫 作 倒 排 索引 机 制 
(inverted index scheme )， 它 为 大 多 数 主 流 搜 索引 擎 所 采用 。 

给 定 一 组 网 页 pi, e, pi 和 包含 网 页 出 现 的 所 有 单词 w;ETV 的 词汇 表 V. 我 们 将 单词 及 
含有 该 单词 的 网 页 编号 对 应 起 来 ， 形成 如 下 形式 的 列表 : wiid, idj3，…, wi idp, idp 
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Fet, id, 表示 网 页 j 





单词 在 每 个 

















因而 ， 查 询 词 若 由 多 个 单词 








网 页 的 频数 或 在 网 页 中 的 位 置 。 
主要 概念 。 但 索引 器 的 具体 实现 ， 超 出 了 本 书 的 ; 


组 成 ， 发 起 检索 后 ， 


的 列表 保存 起 来 ， 做 成 倒 排 索 引 数据 库 。 
的 编号 。 除 此 之 外 ,我 们 还 可 以 存储 每 个 单 











词 的 其 他 信息 ， 比 如 











为 了 保证 
解 范 


























围 。 


本 书 内 容 的 完整 性 ， 我 们 介绍 了 这 









































系统 将 查找 每 个 单词 的 倒 排 索引 列表 ， 



































































































































并 将 找到 的 多 个 倒 排 索引 列表 合并 后 返回 。 然 后 ， 再 用 排序 算法 和 信息 检索 系统 ， 综 合 评 
定 文档 和 查询 词 之 间 的 相关 性 ， 从 而 最 终 确定 索引 列表 的 顺序 。 
4.1.3 ”排序 一 一 PageRank 算法 

排序 算法 很 重要 。 因 为 通常 仅 一 条 查询 词 ， 也 许 就 会 返回 海量 网 页 。 因 此 ， 如 何 选取 
最 相关 的 网 页 成 为 一 个 大 难题 。 进 一 步 讲 ， 欺 骗 信息 检索 模型 也 很 简单 ， 只 需 在 网 页 中 插 
入 多 个 关键 词 ， 使 得 网 页 与 大 量 查 询 词 相关 即 可 。 因 此 ， 为 了 解决 网 页 的 重要 性 (排序 分 
BO 的 评估 问题 ， 人 们 考虑 利用 互联 网 具有 图 结构 这 一 特点 。 超 链接 图 状 结构 个 网 


页 链接 到 另 一 个 网 页 一 一 是 评估 网 页 相关 性 的 主要 信息 
指向 网 页 i 的 超 链接 ; 

网 页 i 中 指向 其 他 网 页 的 超 链 接 。 
直觉 告诉 我 们 ， 入 链 越 多 的 网 页 应 该 越 重 要 。 

















。 网 
。 网 


W i AGE: 
页 i 的 出 链 : 














源 。 超 链接 可 分 为 以 下 两 种 




















Zn 























部 分 ， f 
所 知 。 我 们 将 解释 最 著名 的 PageRank $ 
创始 人 ) 在 1998 年 提出 的 。 


RA TAH iti 





| 了 很 多 算法 # 











超 链接 结构 的 看 











究 是 社交 网 络 分 析 的 一 











已 投入 使 用 。 但 有 的 

















BH 


每 个 出 链 所 得 
值 为 : 




















matrix)， 它 表示 的 是 节点 j 输送 给 节点 i 的 权威 
\ 式 可 改写 为 如 下 形式 : 


P= A P PU 


作 相 应 的 和 矩阵， 上 述 公 





之 和 。 如 果 网 页 7 的 权威 性 
到 的 权威 








如 果 网 页 7 指向 网 页 六 ER 








它 的 总 体 思想 
为 PO)， 
生 等 于 PO)/N;。 






































法 。 该 算法 是 由 
是 : 一 个 网 页 


那么 7 指向 的 所 有 网 























法 由 于 时 间 较 长 ， 如 今 已 不 为 人 
Sergey Brin 和 Larry Page (谷歌 
HAL BRT 
页 均 分 它 的 权威 性 ， 因 此 j 的 





为 指向 它 的 所 有 网 页 的 权 




















正式 的 数学 语言 来 i 








PG) = 2,4,P()) 





1 
HAY) Aj =— ; 否则 ， 
N, 


1 





EH 0. 


, 网 页 i 的 权威 性 或 PageRank 


Ai 叫 作 邻 接 和 矩阵 Cadjacency 














Eo ARP 


有 





P(N)’ 


NN 个 节点 ， 将 各 个 变量 换 
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WOR AB BE Ti REAR PE, ESE TREE A71 的 特征 系统 。 该 公式 还 可 以 用 马 





尔 可 夫 链 的 相关 术语 来 解 和 
称 为 访问 节点 i 的 概率 。 两 个 (或 更 多 ) nutu 








$— Ay 称 为 节点 j 到 节点 i 的 转移 概率 ， 节 点 i 的 权威 性 pV 


























F 指 向 彼此 ， 但 不 再 


指向 其 他 节点 。 那 么 ， 








访问 过 这 两 个 节点 之 后 ， 产 生死 循环 ， 用 户 困 于 这 两 个 节点 之 中 。 这 种 情况 叫 作 rank sink 


GERE 4 叫 作 周期 矩阵 )， 解 决 方法 是 增加 逃脱 因 




















而 不 用 遵循 矩阵 4 所 刻画 的 马尔 可 夫 链 : 











其 中 ，E=ee NN 


表示 转移 矩阵 4 所 定义 的 转移 概率 。41-42 为 随机 访问 一 个 网 页 的 概率 。 公 式 表明 ， 所 有 
FE 阵 某 一 行 有 多 个 元 素 为 0， 比 如 节点 s MERIT. WA, BAR 
小 的 概率 UN Vili] s. BU 4y=1/N。4 为 行 随机 





的 节点 相互 连接 ， 即 使 邻接 和 
结构 中 ，N 个 访问 s 的 节点 ， 每 个 节点 都 以 和 

















P-[ 于 22， 
N 























a |p 


子 ZE， 允许 随机 从 每 个 网 页 跳 到 另 一 网 页 ， 





X N 维 的 全 1 HERE Ce 为 单位 向 量 )，d (damping factor， 阻 尼 系 数 ) 


















































矩阵 ， 每 行 所 有 元 素 之 和 为 1，Y ,4 =1 iE1…。 N (每 行 至 少 一 个 元 素 不 为 0 或 至 少 每 个 
网 页 有 一 条 出 链 )。 我 们 对 P 向 量 进行 规范 化 ， 使 得 ep=N， 可 将 公式 简化 为 ; 




















N 
P=(1-d)e+dd'P > P(i)=(1-d) +d> APO), > N 
j=l 















































ES ASU RIE TTIZ RA. B 8 章 将 用 该 算法 实现 影评 情感 分 析 系 统 。 该 算法 的 


主要 优点 是 ， 不 依赖 于 查询 词 〈 因 此 PageRank 值 可 离线 计算 好 ， 
此 外 ， 它 还 具有 较 强 的 鲁 棒 性 ， 能 有 效 防范 作 浆 ， 





网 页 的 入 链 不 太 现 实 。 














4.2 Web AREH 











DSL EB HER 

















这 一 类 挖掘 技术 ,着 力 解决 如 何 从 网 页 内 容 











tai. WAY 











收集 网 页 ， 整 理 网 页 内 

















容 (句法 解析 技术 ); 处 理 








查询 时 直接 检索 即 可 )。 





影响 力 的 网 页 作为 自己 


加 的 常见 过 程 描述 如 下 ; 


网 页 内 容 ， 删 除 文本 中 不 重要 的 部 分 自 























然 语言 处 理 技 术 ); 然后 ， 再 用 





别 讨论 这 3 种 技术 。 
句法 解析 


网 页 为 HTML 格式 ， 因 此 首先 需要 将 相关 信息 从 HTML. 代码 中 抽取 出 来 。HTML fi 
| 取 内 容 。 现 如 今 解 析 器 有 很 多 ， 我 们 拿 Scrapy 库 当 例子 ， 





析 器 构建 标签 树 ， 便 于 从 中 






































童 恩 检索 系统 ， 为 给 定 查询 词 匹配 相关 文档 。 下 面 我 们 将 分 
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"n 
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提供 了 命令 行 解析 器 , 详 见 第 7 章 。 比如, 我 们 想 解 析 维 基 百 科 的 首页 https://en.wikipedia.org/ 
wiki/Main Page。 只 需 在 终端 输入 : 






































scrapy shell 'https://en.wikipedia.org/wiki/Main Page' 


然后 ， 我 们 就 可 以 在 命令 提示 符 后 ， 用 response RA xpath 语言 解析 网 页 。 比 如 ， 
获取 网 页 的 标题 : 











In [1]: response.xpath('//title/text()').extract() 
Out[1]: [u'Wikipedia, the free encyclopedia'] 








Bee, Sepe TA BER CM TM TER, Beis Bots re EB. DU 
我 们 可 以 先 用 Scrapy 库 抽取 链接 )。 链 接 通 常用 <a> 标 签 ， 且 URL 为 href 的 属性 值 : 















































In [2]: response.xpath("//a/@href") .extract () 
Out [2]: 

[u'#mw-head', 

u'#p-search', 

u'/wiki/Wikipedia', 

u'/wiki/Free content', 
u'/wiki/Encyclopedia', 
u'/wiki/Wikipedia:Introduction', 


u'//wikimediafoundation.org/', 
u'//www.mediawiki.org/'] 




















我 们 可 以 考虑 用 鲁 棒 性 更 强 的 方法 解析 网 页 内 容 , 因为 网 页 的 编写 者 通常 不 是 程序 员 ， 
所 以 HTML 代码 也 许 包含 句法 错误 ， 并 且 浏 览 器 可 能 根据 自己 的 理解 对 其 进行 过 修正 。 此 
外 ， 网 页 也 许 包含 大 量 广告 信息 ， 增 加 了 解析 相关 信息 的 复杂 度 。 如 何 识别 网 页 的 主要 内 
容 ， 人 们 提出 了 几 种 不 同 的 算法 (比如 ， 树 匹配 )， 但 写作 本 书 时 ， 还 没有 相关 的 Python 
库 ， 因 此 我 们 不 打算 进一步 讨论 这 个 主题 。 然 而 ， 请 注意 newspaper 库 实 现 的 解析 功能 非 
常 好 用 ， 能 够 抽取 网 页 文章 的 主体 部 分 ， 第 7 章 会 用 到 该 库 。 


4.3 自然 语言 处 理 
















































































































































































从 网 页 抽取 文本 内 容 之 后 ， 通 常 要 对 文本 数据 做 预 处 理 ， 删 除 不 提供 任何 相关 信息 的 
部 分 。 对 文本 本 进行 分 词 操作 ， 将 文本 转换 为 单词 列表 ， 删 除 所 有 标点 符号 。 通 常 还 要 删 
除 所 有 的 停 用 词 (stop words)， 这 些 词 构成 名 子 的 句法 ， 但 不 包含 文本 信息 〔 例 如， 连词 、 
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or. that. the. these. this. to. was. what, when, where. who, will, with 等 
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fh 


多 英语 (或 
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上 面 这 样 一 组 单词 还 原 为 词 干 的 过 程 叫 作词 干 提取 〈stemming)， 现 如 今 ， 词 干 








多 种 (Porter, Snowball 和 Lancaster)。 所 有 这 些 技术 都 属于 自然 语言 处 理 这 











提取 和 


冠 词 和 介词 )， 比 如 a. about. an. are. as. at. be. by. for. from. how, in. is. of. ons 


其 他 语言 ) 单 词 , 词 干 相同 , 但 前 后 缀 不同。 例 如, think, thinking 和 thinker 
词 干 都 是 think， 这 表明 它们 的 意思 相同 ， 但 在 句子 中 所 起 作用 不 同 CAE. Bid). 4 





法 有 

































































算法 范畴 ,nltk 库 用 Python 语言 实现 了 这 些 技术 (照旧 可 用 sudo pip install nltk 
举 个 例子 ， 下 面 代码 用 前 面 提 到 的 技术 ， 处 理 一 段 示 例文 本 《在 终端 启用 Python shell): 





YER, stopwords 列表 是 用 nltk dowloader 下 载 的 ，] 






































>>> import nltk 

>>> from nltk.tokenize import WordPunctTokenizer 

>>> nltk.download('stopwords') 

[nltk data] Downloading package 'stopwords' to 

[ntk a /Users/andrea/nitk_data. .. 

[nltk data Package stopwords is already up-to-date! 

True 

»»» from nltk.corpus import stopwords 

>>> stopwords = stopwords.words('english') 

>>> tknzr = WordPunctTokenizer() 

>>> from nltk.stem.porter import PorterStemmer 

>>> stemmer = PorterStemmer() 

>>> text = 'The European languages are members of the same family. Many words in a language trans 

late into familiar words in another. For science, music, sport, etc, Europe uses the same vocabul 

ary. Everyone realizes why a new common language would be desirable: one could refuse to pay tra 

nslators.' 

>>> words = tknzr.tokenize(text) 

>>> words 

['The', 'European', 'languages', ‘are’, 'members', 'of', 'the', ‘same’, ‘family’, '.', ‘Many’, 

ords', 'in', ‘a’, 'language', ' slate', 'into', ‘familiar’, ‘word 'in', ‘another’, '.', 'Fo 

r', 'science', ',', ‘music’, 'sport', ',', 'etc', ',', 'Europe', 'uses', 'the', 'same', 'voc 

abulary', '.', 'Everyone', 'realizes', 'why', 'a', 'new', 'common', 'language', 'would', 'be', 'd 

esirable', ':', 'one', 'could', 'refuse', 'to', 'pay', 'tronslators', '.'] 

>>> words. clean = [w.lower() for w in words if w not in stopwords] 

>>> words_clean 

['the', 'european', ‘Languages’, ' .', 'many', 'words', 'language', 'translat 

e', 'familiar', 'words', ‘another', '. MS O o , "vto Tie", Sos: SORE a ate Tae? 

» ',', 'europe', ‘uses’, ‘vocabulary’, '.', ‘everyone’, ‘realizes’, 'new', ‘common’, ‘Language’, 

'would', ‘desirable’, ':', ‘one’, ‘could’, ‘refuse’, ‘pay’, ‘translators’, '.'] 

>>> words clean stem = [stemmer.stem(w) for w in words clean] 

>>> Words clean stem 

['the', 'european', 'languag', 'member', 'famili', '.', 'moni', 'word', 'languag', 'translat', 'f 

autliar’, "word", 'moth', St 'for*, 'scienc', ",*, "music", '";*, ‘sport’, ",", "atc', T. "aug 
'use', 'vocabulari', '.', 'everyon', 'realiz', 'new', 'common', 'languag', 'would', 'desir 

， ‘could’, 'refus', 'pay', ‘translat', '."] 











43.1 信息 检索 模型 


为 给 定 查 询 词 寻 找 最 相关 的 文档 ， 要 用 信息 检索 方法 。 为 网 页 中 的 单词 建 
去 ， 比 如 布尔 模型 、 向 量 空间 模型 和 概率 模型 。 我 们 讲 一 下 向 量 空间 模型 及 其 实现 方法 。 





wep 





更 为 ) 
安装 该 








阔 的 


pr 





具体 命令 是 nltk.download('stopwords')。 
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模 有 多 











UJ 





我 们 用 正式 的 语言 来 描述 信息 检索 问题 : dE EV eA TAC RA LS NV 个 网 页 的 
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文档 集 ， 每 个 网 页 〈 或 文档 ) 4qi 可 以 看 作 是 由 单词 组 成 的 向 量 d=wis.…, wy 。wy 表示 每 个 
单词 属于 文档 i。 根 据 选 用 的 算法 ，wj 可 以 是 数字 (权重 ) 或 向 量 形式 : 
© 词 频 - 逆 文 档 频 率 (Term Frequency-Inverse Document Frequency，TF-IDF)，w;j 是 一 
个 实数 ; 
。 潜在 语义 分 析 (Latent Semantic Analysis，LSA )， 直 是 一 个 实数 〈 词 的 表示 独立 于 文档 六 ; 
e Doc2Vee (3X word2vec)，wi 由 实数 组 成 的 向 量 ( 独 立 于 文档 i 的 表示 )。 
由 于 查询 词 也 可 以 表示 为 单词 向 量 qois. Wy ,计算 查询 词 向 量 和 文档 向 量 的 相似 


度 ， 可 找到 跟 向 量 q 最 相似 的 网 页 。 最 常用 的 相似 度 度量 方法 叫 作 余弦 相似 度 ， 对 于 任意 
文档 i， 文 档 和 查询 词 的 相似 度 为 : 
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Wy Wig 
j= 2, 


ES 


注意 ， 文 献 中 还 会 使 用 其 他 度量 方法 (Okapi 和 pivoted normalization weighting), 但 是 
。 
下 面 几 节 ， 我 们 详细 介绍 这 3 种 建 模 方 法 ， 最 后 讲 如 何 将 其 用 于 文本 处 理 。 


























































































































1. TF-IDF 


该 方法 在 计算 wj 时 ， 考虑 到 了 这 样 一 个 事实 ,在 一 个 网 页 中 出 现 多 次 并 在 大 量 网 页 出 
现 的 单词 ， 其 重要 性 低 于 在 一 个 网 页 出 现 多 次 但 仅 在 少数 网 页 出 现 的 单词 。TF-IDF 值 由 以 
下 两 个 因子 相 乘 得 到 : 


wir-tfi; xidfis 2 中 : 




























































































Ía 


一 一 一 一 一 为 文档 i 中 单词 j 的 归 一 化 词 频 (normalized frequency ). 
max fii,.. Avi 








二 








N MM i AY fa ` MEX NA 
. M M qf 为 包含 单词 j 的 网 页 数量 。 
j 


2. 潜在 语义 分 析 (LSA) 
该 算法 的 名 称 来 自 于 如 下 想法 ， 每 个 单词 〈 文 档 ) 在 潜在 空间 可 以 得 到 充分 地 描述 ， 
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假定 意思 相似 的 单词 在 文本 中 出 现 的 位 置 也 相似 。 单 词 在 子 空间 的 映射 ， 用 截断) 奇异 
直 分 解 方法 来 计算 ， 该 方法 在 第 2 章 已 介绍 过 。 将 奇异 值 分 解 方法 用 于 LSA 算法， 那么 包 



















































































含 所 有 网 页 的 文档 集 用 矩阵 卫 CVXN 28) 表示 ， 其 中 每 一 列表 示 一 篇 文档 : 




















U,(V'q) 为 映射 到 4 He 











X= U.> di 
新 潜在 空间 的 单词 矩阵 ， 了 ,天 (dgW) 为 转换 到 子 空间 的 文档 的 转 置 





















































矩阵，Z，(q'q) 为 包含 奇异 值 的 对 角 和 矩阵 。 查 询 词 向 量 按 如 下 方式 映射 到 潜在 空间 : 














q, -qU,E, 














接着 ， 计 算 VIE 





行 所 表示 的 文档 跟 q, 的 余弦 相似 度 。 注 意 ， 文 档 在 潜在 空间 的 数 
















































































学 表达 式 为 也 矿 〈 不 是 万)， 因 为 奇异 值 是 空间 轴 的 比例 因子 〈scaling factor)， 因 此 需要 将 
其 














考虑 在 内 。 因 而 ， 文 档 矩 阵 应 该 与 2.9 相 比较 。 然 而 ， 我 们 通常 计算 的 是 万 和 gq, 的 相似 
度 ， 并 且 尚 不 清楚 在 实际 应 用 中 哪 种 方法 效果 最 好 。 
































3. Doc2Vec(word2vec) 























该 方法 将 每 个 单词 wj 表示 成 独立 于 包含 它 的 文档 4 的 向 量 vwj。Doc2Vec 是 Mikolov 












































等 人 发 明 的 word2vec 算法 的 扩展 ，Doc2Vec 算法 采用 神经 网 络 和 反 向 传播 方法 生成 词 (和 
文档 ) 向 量 。 鉴 于 神经 网 络 〈 尤 其 是 深度 学 习 ) 在 很 多 机 器 学 习 应 用 中 重要 性 日 增 ， 我 们 
决定 讲 一 下 这 种 非常 高 级 的 方法 ， 介 绍 其 主要 概念 和 公式 。 对 于 各 个 领域 的 机 器 学 习 ， 神 










































































经 网 络 这 种 方法 将 变 得 极 























其 重要 。 下 面 的 内 容 是 基于 Rong (2014). Le 和 Mikolv (2014) 











的 论文 ， 下 面 提 到 的 这 些 术 语 也 正 是 当今 文献 所 使 用 的 。 

















4. Word2vec 一 一 连 


续 词 袋 和 Skip-gram 架构 


























将 词汇 表 V 中 的 每 个 单词 j 表示 为 长 度 为 |H 的 向 量 ， 向 量 的 每 个 元 素 ”为 二 进 制 
xX 二 (x1"…，Xw)， 其 中 只 有 y=1， 其 余 均 为 0。word2vec 方法 从 两 种 网 络 架构 〈 见 图 4.1) 中 

































































选取 一 种 ， 训 练 由 入 个 家 
































只 有 包含 NN 个 神经 元 或 权重 有 h 的 一 层 神经 网 络 。 因 此 ， 我 们 可 将 该 方法 看 作 是 浅 层 学 习 而 
不 是 深度 学 习 ， 后 者 通常 指 含 有 多 层 隐 含 层 的 网 络 。 连 续 词 袋 (Continuous Bag Of Words, 
CBOW) 方法 (图 4.1 右 侧 ) 使 用 C 个 单词 作为 输入 〔( 叫 作 上 下 文 ) 训 练 模型 ， 尝 试 预测 


经 元 ( 带 权 重 ) 组 成 的 一 层 〈 隐 含 层 ) 神经 网 络 。 这 两 种 架构 都 










































































与 输入 的 上 下 文 相 邻 的 单词 〈 目 标 )。 该 方法 的 逆 操 作 叫 作 Skip-gram， 它 以 目标 单词 作为 








输入 ， 训 练 网 络 预测 目标 单词 的 上 下 文 《图 4.1 左 侧 )。C 叫 作 窗口 参数 ， 它 指定 从 距离 目 
标 词 多 远 的 位 置 选择 上 下 文 : 




















Q 分 量 。 一 一 译 者 注 























Cx V-dim 





Cx V-dim 
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o| Output layer Input layer 
9 yi 
Www 
Input layer 
Hidden layer Hidden n layer Output layer 
Ww g: Vaj Pi xp 
N-dim » ] 
» Bn 
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4.1 




















地 介绍 。 

















word2vec 算法 的 Skip-gram (Æ) 和 CBOW (4) 
X Rong (2015) 

















E. TRES 





























练 阶段 ， 计 算 真 正 的 目标 














WV 和 WERE., 我 们 将 在 下 一 








5. CBOW 模型 的 数学 表述 


模型 从 输入 层 开 始 进 入 到 隐 含 


a 


XC [n] & Vw; 的 均值 。 选 定 目 标 词 Wis 向 量 Vw, CWI RS 


wj 的 值 : 


这 还 不 是 输出 层 y; 的 最 终 值 ， 因 为 我 们 想 计 算 的 是 给 定 上 下 文 C， 
\ 式 表示 上 下 文 ， Yj 的 计算 方式 如 下 : 


率 ， 用 softmax 公 


























1 
=(V, ++, Jar 得 到 ， 














二 j 
u, =v, eh 








" TENE 1 
Eh, wm UBI HA-CW 
其 中 ， ww 向 量 长 度 为 N; 它 表示 隐 含 层 单词 Wio 








架构 ， 该 图 摘自 


所 写 的 “word2vec Parameter Learning Explained” 

这 两 种 情况 ， 和 矩阵 OW 将 输入 向 量 转换 为 隐 含 
计算 得 到 目标 (或 上 下 文 )。 训 
并 用 随机 梯度 下 降 , 更 新 





含 层 WW 转换 为 输出 层 的 y, 
Ri] (BLE PSC) 的 错误 率 ， 
节 给 出 CBOW 方法 更 为 数学 化 的 
请 注意 ，Skip-gram 等 式 与 之 类 似 ， 我 们 将 参照 Rong (2015) 的 论文 ， 更 为 详细 





(x + +xc)= 


we 是 C 上 下 


JZD RA h 就 可 以 得 到 输出 层 


目标 词 w 的 后 验 概 
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uj e" vc 
y= p(w; ni. we)= 中 
ei e" Ve 
i=l i= 
现在 ， 训 练 目标 是 ， 对 于 词汇 表 所 有 单词 ， 最 大 化 这 一 概率 ， 这 等 价 于 mer 
(w Im. wc) > E =-maxlog p(w, Iw. We) 2 —V,, "hielo Se , 其 中 max(v; - devi, A, 
Fs j" RAE WW 中 使 得 乘积 最 大 化 的 元 素 ， 也 就 是 最 可 能 的 目标 词 。 
EX Ww) 和 WW'(w') 求 偏 导 ， 可 得 到 随机 梯度 下 降 公 式 。 作 为 输出 的 每 个 目标 词 w;, 
其 计算 公式 如 下 : 
zo sv Ca hvj ey] 
j j ou, 
mew told 1 ð . OE OE OE > : Y Mj x 
"W =y —0—-—— VN, el. 56s 其 中 = pened , a 为 梯度 下 降 的 学 习 速 率 。 
m TE OR ah z oh, = 
eae OE = fet pa peace = m E 
SAC = y,-ó, 表示 网 络 与 实际 目标 词 之 间 的 错误 率 。 在 系统 中 反 向 传播 错误 率 ， 实 


uj 








的 词 向 量 (word representations). 





现在 和 欠 代 中 学 习 。 注 意 w YL…,| 四 是 语义 计算 常 有 











更 多 细节 见 Rong (2015) 的 论文 。 


6. Doc2Vec 扩展 





解释 i 


Le 和 Mikolov 在 论文 (2014) 中 
Doc2Vec 是 word2vec 方法 自然 而 然 的 扩 
Doc2Vec 将 文档 看 作 是 额外 的 词 向 量 。 因 此 ， 对 
T CBOW 架构 , 隐 伟 层 向 量 h 为 上 下 文 向 量 和 文 
档 向 量 4; 的 均值 : 
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us 














ho EW tte +d) 
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C 

图 4.2 所 示 的 架构 叫 作 分 布 记忆 模型 (Distri 


buted Memory Model，DM)， 因 为 文档 4; 向 量 记 住 了 
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| Uu 




















42 分布 记忆 模型 示例 ， 上 下 文 包含 3 个 词 
Cwindow-3); 该 图 摘自 Le 和 Mikolov (2014) 

















BIS] “Distributed Representations of Sentences 











上 上下文 词 语 没 有 表示 出 来 的 文档 信息 。 从 文档 4d; 采样 


and Documents”( 人 句子 和 文档 的 分 布 式 表 示 ) 
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得 到 (sample) 的 所 有 上 下 文 词 共用 Va {AEX} FATA, FERE WwW (和 下) 都 是 相同 的 。 


另 一 种 架构 叫 作 分 布 词 袋 (Distributed Bag of Words，DBOW 1)， 输 入 层 仅 考虑 一 篇 文 
档 向 量 ， 输 出 层 给 出 从 文档 采样 得 到 的 一 组 上 下 文 词语 。 经 验 表 明 DM 架构 比 DBOW 2 
构 效 果 好 ， 因 此 DM 是 gensim 库 默 认 使 用 的 模型 。 建 议 读者 读 一 下 Le 和 Mikolov 在 2014 
年 发 表 的 论文 ， 了 解 更 多 细节 。 


7. 影评 查询 示例 


我 们 使 用 Bo Pang 和 Lillian Lee 提供 的 IMBD 影评 数据 ， 演 示 前 面 讨论 的 3 种 信息 检 
索 模 型 实际 用 法 。 数 据 下 载 地 址 为 http://www.cs.cornell.edu/people/pabo/movie-review-data/， 
请 下 载 polarity dataset v2.0 和 Pool of 27886 unprocessed html files 两 个 文件 。( 数 据 集 和 代码 
也 可 以 从 作者 的 GitHub 主页 下 载 ， 地 址 为 https://github.com/ai2010/machine learning - 
for the web/tree/master/chapter 4/)。 从 网 站 下 载 movie.zip 〈 实 际 下 载 下 来 的 文件 叫 作 
polarity_html.zip)， 解 压 后 生成 movie 文件 来， 里面 存放 了 所 有 的 影评 网 页 《大 约 2000 个 
文件 )。 首 先 ， 读 取 这 些 文件 ， 准 备 数据 : 


























































































































In [1]: #import files 

import os 

import numpy as np 

#get titles 

from BeautifulSoup import BeautifulSoup 

moviehtmldir = './movie/' 

moviedict - () 

for filename in [f for f in os.listdir(moviehtmldir) if f[0]!9'.']: 
id = filename.split('.')[0] 
f = open(moviehtmldir+'/'+£ilename) 
parsed html = BeautifulSoup(f.read()) 


try: 
title = parsed html.body.hl.text 


except: 
title = ‘none’ 
moviedict[id] = title 


然后 ， 我 们 用 BeautifulSoup 从 每 个 HTML 页 面 解析 出 网 页 的 标题 (tile)， 创 建 moviedict 
字典 。polarity dataset v2.0.tar.gz 包含 review polarity 文件 夹 ， 该 文件 夹 下 有 txt sentoken 文件 夹 ， 
它 的 两 个 子 文件 夹 分 别 存放 着 积极 和 消极 影评 (pros 和 cons)。 用 下 面 代码 预 处 理 这 些 文件 : 


In [99]: import nltk 
from nltk.corpus import stopwords 
from nltk.tokenize import WordPunctTokenizer 
tknzr = WordPunctTokenizer() 
nltk.download|'stopwords')j| 
stoplist = stopwords.words('english') 
from nltk.stem.porter import PorterStemmer 
stemmer = PorterStemmer() 
def ListDocs(dirname): 
docs = [] 
titles = [] 
for filename in [f for f in os.listdir(dirname) if str(f)[0]!*'.']: 
f = open(dirname+' /'+filename, 'r' 
id = filename.split('.')[0].split(' ')[1] 
















































































titles.append(moviedict[id]) 
docs.append(f.read()) 
return docs,titles 


dir = './review polarity/txt sentoken/" 

pos textreviews,pos titles - ListDocs(dir*'pos/') 
neg textreviews,neg titles = ListDocs(dir*'neg/') 
tot textreviews = pos textreviewstneg textreviews 
tot titles = pos titles/neg titles 
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现在 ， 我 们 已 将 2000 条 影评 存储 到 tot_textreviews 列表 ， 网 页 标题 存储 到 tot titles 列 
表 。 我 们 用 sklearn 的 TF-IDF 实现 ， 训 练 TF-IDF 模型 





In [4]: #test tf-idf 
from sklearn.feature extraction.text import TfidfVectorizer 


def PreprocessTfidf(texts,stoplist-[],stem-False): 
newtexts = [] 
for text in texts: 
if stem: 
tmp = [w for w in tknzr.tokenize(text) if w not in stoplist] 
else: 
tmp = [stemmer.stem(w) for w in [w for w in tknzr.tokenize(text) if w not in stoplist]] 
newtexts.append(' '.join(tmp)) 
return newtexts 
vectorizer = TfidfVectorizer(min df-1) 
processed reviews - PreprocessTfidf(tot textreviews,stoplist,True) 
mod tfidf - vectorizer.fit(processed reviews) 
vec tfidf = mod tfidf.transform(processed reviews) 
tfidf = dict(zip(vectorizer.get feature names(),vectorizer.idf )) 























上 述 代码 PreprocessTfidf 函数 后 ， 预 处 理 每 篇 文档 〈 删 除 停 用 词 、 分 词 和 提取 词 干 )。 
同 理 ， 用 gensim FEA LSA 实现 ， 训 练 LSA 模型 ， 指 定 10 个 潜在 维度 (latent dimension): 




















In [5]: #test LSA 
import gensim 
from gensim import models 
class GenSimCorpus(object): 
def — init (self, texts, stoplist-[],stem-False): 
self.texts - texts 
self.stoplist - stoplist 
self.stem = stem 
self.dictionary - gensim.corpora.Dictionary(self.iter docs(texts, stoplist)) 


def len (self): 
return len(self.texts) 
def _ iter (self): 
for tokens in self.iter_docs(self.texts, self.stoplist): 
yield self.dictionary.doc2bow(tokens) 
def iter docs(self,texts, stoplist): 
for text in texts: 
if self.stem: 
yield (stemmer.stem(w) for w in [x for x in tknzr.tokenize(text) if x not in stoplist]) 
else: 
yield (x for x in tknzr.tokenize(text) if x not in stoplist) 


corpus = GenSimCorpus(tot textreviews,stoplist,True) 

dict corpus = corpus.dictionary 

ntopics = 10 

lsi = models.LsiModel(corpus, num topics-ntopics, id2word-dict corpus) 


注意 GenSimCorpus 函数 用 常用 技术 预 处 理 文档 , 将 文档 转换 为 gensim 的 LSA 实现 可 
以 读 取 的 格式 。 我 们 能 够 从 Isi 对 象 获取 到 U、 广 和 S 和 矩阵 ， 将 查询 词 转换 到 潜在 空间 需要 
用 到 的 这 些 和 矩阵 : 



































In [6]: U = lsi.projection.u 
Sigma = np.eye(ntopics)*lsi.projection.s 
#calculate V 
V = gensim.matutils.corpus2dense(lsi[corpus], len(lsi.projection.s)).T / lsi.projection.s 
dict words = {} 
for i in range(len(dict corpus)): 
dict words[dict corpus[i]] = i 











经 过 计算 ， 我 们 得 到 了 单词 的 索引 字典 dict words， 将 查询 词 转换 为 它 在 dict corpus 
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相应 的 索引 词 。 


最 后 训练 模型 是 Doc2Vec。 首先 , 按照 gensim 的 Doc2Vec 实现 能 够 处 至 


的 格式 ,准备 好 数据 : 








In [7]: from collections import namedtuple 

def PreprocessDoc2Vec(text,stop-[],Stem-False): 
words - tknzr.tokenize(text) 
if stem: 


else: 
words clean = [i.lower() for i in words if i not in stop] 
return words clean 


Review = namedtuple('Review','words tags') 
dir = './review polarity/txt sentoken/' 
do2vecstem - False 

reviews pos L1 

cnt 0 


f = open(dir*'pos/'4filename, 'r') 
cnt+=1 


reviews neg = [] 
cnt= 0 


f = open(dir+'neg/'+filename, 'r') 
reviews_neg.append(Review(PreprocessDoc2Vec(f.read(),stoplist, 
entt+=1 





tot_reviews = reviews_pos + reviews_neg 


words clean = [stemmer.stem(w) for w in [i.lower() for i in words if i not in stop]] 


for filename in [f for f in os.listdir(dir*'pos/') if str(f)[O0]!='.' 


reviews pos.append(Review(PreprocessDoc2Vec(f.read(),stoplist, 


for filename in [f for f in os.listdir(dir*'neg/') if str(f)[0]!-'."' 


do2vecstem),['pos '*str(cnt)])) 


do2vecstem),['neg '*str(cnt)])) 











HER 
RISTAND Jb 











F 论 置 于 一 个 namedtuple 对 象 之 中 ， 该 对 象 包含 
过 的 单词 和 表示 文件 名 称 的 标签 。 请 注意 ， 我 们 没有 提取 词 干 ， 





PreprocessDoc2Vec 函数 〈 删 














为 我 们 发 现 不 提取 词 王 效果 更 好 〈 读 者 可 将 布尔 型 标记 doc2vecstem 置 为 True， 试 试 词 干 





的 效果 如 何 )。 用 以 下 代码 完成 Doc2Vec 训练 : 








In [8]: define doc2vec 
from gensim.models import Doc2Vec 


import multiprocessing 


cores = multiprocessing.cpu_count() 
vec_size = 500 


#build vocab 
model d2v.build vocab(tot reviews) 
#train 
numepochs= 20 
for epoch in range(numepochs): 
try: 
print ‘epoch td’ % (epoch) 
model d2v.train(tot reviews) 
model d2v.alpha *= 0.99 
model d2v.min alpha = model d2v.alpha 
except (KeyboardInterrupt, SystemExit): 
break 





model d2v = Doc2Vec(dme1, dm concat*0, size*vec size, window*10, negative=0, hs*0, min count*1, workers*cores) 








我 们 设置 好 用 DM 架构 〈dm=1)， 隐 含 层 为 500 AE CK), 


将 所 有 至 少 出 现 1 次 的 单词 (min count=1) 纳入 模型 。 





窗口 大 小 为 10 个 单词 ， 





HA 


ZN AN 


参数 与 效率 优化 方法 有 关 








(negative 指 的 是 负 采 样 ，hs 指 的 是 hierarchical softmax， 也 称 为 层次 softmax)。 训 练 持续 


了 20 个 epoch《〈 步 数 )， 学 习 速率 为 0.99。 
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我 们 现在 可 以 验证 每 种 方法 的 返回 结果 。 比 如 定义 如 下 查询 词 ， 检 索 所 有 跟 科幻 电影 
相关 的 网 页 文档 。 这 里 所 说 的 科幻 电影 也 就 是 通常 能 用 下 面 列表 中 的 单词 描述 的 电影 : 









































In [9]: query 
query = ['science','future','action' ] 











用 TF-IDF 模型 返回 5 个 与 查询 词 最 相似 的 网 页 ， 代 码 如 下 : 





In [10]: #similar tfidf 
#sparse matrix so the metrics transform into regular vectors before computing cosine 
from sklearn.metrics.pairwise import cosine similarity 
query vec - mod tfidf.transform(PreprocessTfidf([' '.join(query)],stoplist,True)) 
sims- cosine similarity(query vec,vec tfidf)[0] 
indxs sims - sims.argsort()[::-1] 
for d in list(indxs sims)[:5]: 
print 'sim:',sims[d],' title:',tot titles[d] 


























FS E FER RB ME i, AEA cosine similarity EK AOK Ait ER y 76 IR 
量 ， 这 点 要 注意 。 然 后 ， 再 计算 相似 度 。LSA 模型 处 理 方式 类 似 ， 将 查询 词 转换 为 gq:， 然 
后 输出 5 个 最 相似 的 网 页 : 


In [11]: FLSA query 
def TransformWordsListtoQueryVec(wordslist,dict words,stem-False): 
q 7 np.zeros(len(dict words.keys())) 
for w in wordslist: 


















































if stem: 
q[dict words[stemmer.stem(w)]]-1. 
else: 
qldict words[w]] = 1. 
return q 


q = TransformWordsListtoQueryVec(query,dict words,True) 
qk = np.dot(np.dot(q,U),Sigma) 


sims - np.zeros(len(tot textreviews)) 

for d in range(len(V)): 
sims[d]=np.dot(qk,V[d]) 

indxs sims = np.argsort(sims)[::-1] 

for d in list(indxs_sims)[:5]: 
print 'sim:',sims[d],' doc:',tot titles[d] 











最 后 ，doc2vec 模型 用 infer vector 函数 将 查询 词 列 表 转 换 为 向 量 。most similar 函数 返 
回 最 相似 的 影评 : 


In [12]: #doc2vec query 
#force inference to get the same result 
model d2v.random = np.random.RandomState(1) 
query docvec = model_d2v.infer_vector(PreprocessDoc2Vec(' '.join(query),stoplist,do2vecstem)) 














reviews related = model d2v.docvecs.most similar([query docvec], topn=5) 
for review in reviews related: 
print 'relevance:',review[1],'  title:',tot titles[review[0]] 

















请 注意 ， 若 要 用 优化 方法 〈 负 采样 或 层次 softmax)， 模 型 的 random 参数 需 设置 为 一 个 
固定 值 ， 以 返回 确定 的 结果 。 结 果 如 下 : 
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TF-IDF: 
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sim: 
sim: 
sim: 
sim: 
sim: 





177948650457 
«177821146567 
- 173783798661 
- 163031796224 
- 160582512878 


oooco 


title: 
title: 
title: 
title: 
title: 


No Telling (1991) 

Total Recall (1990) 

Time Machine, The (1960) 
Bicentennial Man (1999) 
Andromeda Strain, The (1971) 











sim: 
sim: 
sim: 
sim: 
sim: 





.0370254245 doc: 


Star Wars: 


41798397445 
-41131742531 
99980957062 
.86164366049 


NNWW A 


doc: 
doc: 
doc: 
doc: 


Alien&#179; (1992) 

Rocky Horror Picture Show, The (1975) 
Starship Troopers (1997) 

Wild Things (1998) 


Episode I - The Phantom Menace (1999) 








Doc2Vec: 








relevance: 
relevance: 
relevance: 
relevance: 
relevance: 


oocooo 


.129549503326 
124721623957 
«122562259436 
- 119273915887 
- 118506141007 


title: 
title: 
title: 
title: 
title: 


Lost World: Jurassic Park, The (1997) 
In the Heat of the Night (1967) 
Charlie's Angels (2000) 

Batman & Robin (1997) 

Pok&#233;mon: The Movie 2000 (2000) 











3 种 方法 返回 




















的 电影 中 均 有 和 碍 询 词 相 关 的 。 有 趣 的 是 ，TF-IDF 算法 比 更 高 级 的 LSA 
和 Doc2Vec 算法 效果 要 好 ， 因 为 这 些 算法 返回 
Rocky Horror Picture Show 和 Wild Things 与 查询 词 无 关 ， 而 TF-IDF 

















gt 





吉 果 中 的 In the Heat of the Night. Pokemon, 
的 返回 结果 仅 有 一 部 电 


ae 




















影 (No Telling) 与 查询 词 无 关 。Charlie's Angels 和 Batman & Robin 这 两 部 是 动作 片 ， 因 此 

















ess 


学 到 好 的 向 


4.4 信息 


从 Web 上 收集 来 网 页 之 后 ， 我 们 可 以 ) 
Web 搜索 引擎 ， 或 用 于 其 
析 Clatent Dirichlet analysis ) 


4.4.1 





1X tH IE 





是 观察 至 


个 查询 词 action FAK 
量 表示 ， 该 算法 需要 较 大 的 训 
十 亿 甚 至 更 多 的 文档 )。 康 
Imovie-review-data/ 提 供 一 个 更 大 的 数据 集 ， 











aA 














FE 最 大 。Doc2Vec 

















结果 最 差 ， 主 要 是 因为 训练 集 太 小 ， 无 法 


练 集 ( 例 如， 谷歌 发 布 的 word2vec 训练 集 包 含 几 

















后 处 理 


























奈 尔 大 学 计 








机 学 院 网 站 http://www.cs.cornell.edu/people/pabo/ 
读者 可 尝试 练习 用 更 多 的 数据 训练 Doc2Vec 模型 。 





他 商业 目的 。 我 们 下 面 讨论 从 文档 集 抽取 主 
法 , 以 及 从 每 个 网 页 抽取 情感 和 观点 的 技术 (观点 把 


PETEAR E e 


潜在 狄 利克 雷 分 配 (Latent Dirichlet Allocation, LDA) 是 一 
然 语言 处 理 算法 。 该 技术 是 基于 以 下 观察 ， 
| 的 数据 相似 或 不 同 的 原因 





























自然 语言 处 到 





算法 从 中 抽取 相关 信息 ， 构 建 
的 潜在 狄 利克 雷 分 
ZBR. 












































种 属于 生成 模型 范畴 的 自 
一 些 变量 可 以 用 潜在 、 未 观察 到 的 变量 来 解释 ， 














o 
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例如 ， 对 于 文本 文档 而 言 ， 单 词 是 观察 到 的 变量 ， 而 每 篇 文档 可 以 是 多 个 主题 〈 未 观 
察 到 的 变量 ) 灶 合 在 一 起 形成 的 ， 每 个 单词 指向 一 特定 主题 。 


例如 ， 下 面 两 篇 描述 两 家 公司 的 文档 : 
























































e 文档 1: Changing how people search for fashion items and, share and buy fashion via visual 





recognition, TRUELIFE is going to become the best approach to search the ultimate trends .. S 


e 文档 2: Cinema4you enabling any venue to be a cinema is a new digital filmed media 
distribution company currently in the testing phase. It applies technologies used in 
Video on Demand and broadcasting to ... 4 

LDA 可 自动 发 现 这 些 文档 所 包含 的 潜在 主题 。 例 如 ,给 定 以 上 两 篇 文档 ，LDA 也 许 返 

以 下 与 每 个 主题 相关 的 词语 : 
e +21: people Video fashion media... CAM] 视频 时 尚 媒体 …… ) 











Iz] 


。 +2: Cinema technologies recognition broadcasting... (xli 技术 识别 播放 …… ) 
因而 ， 可 将 第 2 个 主题 标记 为 技术 ， 第 1 个 主题 标记 为 商业 。 

然后 ， 可 将 文档 表示 为 多 个 主题 的 混合 体 ， 文 档 中 的 单词 以 一 定 的 概率 分 属于 不 同 的 主题 : 
。 文档 1: 主题 1 42%、 主 题 2 64% 









































。 文档 2: 主题 1 21%、 主 题 2 79% 

这 种 文档 表示 方法 可 用 于 多 种 应 用 ， 比 如 将 多 个 网 页 分 为 不 同 的 组 或 从 一 组 网 页 中 抽 
取 主 要 的 共同 主题 。 下 一 节 ， 我 们 解释 该 算法 背后 的 数学 模型 。 

1. 模型 

文档 表示 为 潜在 主题 的 随机 组 合 ， 每 个 主题 用 词语 的 分 布 来 刻画 。 假 定 文档 集 包 含 M 


篇 文档 d-(di t, dqw)， 每 篇 文档 i 包含 Nj 个 单词 。 如果 人 是 词汇 表 的 长 度 ， 文档 i 的 每 个 单 
词 表示 为 长 度 为 六 的 向 量 w;， 其 中 只 有 元 素 w=, HRTAN O: 


Wi— (0... wi -lL'7) 


潜在 维度 〈 主 题 ) IRURE K, PRICE, ern, zw) 为 每 个 单词 wi 对 应 的 主题 向 









































































































































(D 译文 是 “TRUELIFE 正在 用 视觉 识别 方法 改变 人 们 搜索 、 分 享 和 购买 时 尚 用 品 的 方式 ， 它 即将 变 为 搜索 终极 潮流 的 最 佳 方式 ……”。 
为 正文 下 面 涉及 单词 分 属 不 同 主题 概率 的 计算 ， 所 以 正文 仍 用 英文 。 下 同 。 译 者 注 
© 译文 是 “Cinema4you 是 一 家 新 型 的 数字 化 影视 媒体 分 销 公 司 ， 它 可 将 任何 会 场 升级 为 影院 ， 它 目前 处 于 试 运营 阶段 。 它 采 
视频 点 播 技 术 ， 播 放 ……” 一 一 译 者 注 















































四 
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RT 











o z HEIKE K, REA IURIS, RRTREAO, zi 表示 单词 w; 来 自 的 主题 。 
b 为 KxV ERE, by Ko REL EFI REA Pa] 7 AE i MESE: pj=p(w=1|lz=1)。 
因此 ，2 的 每 一 行 i 表示 单词 在 主题 i 下 的 分 布 ， 而 每 一 列 j 表示 主题 在 单词 j 下 的 分 

布 。 我 们 用 以 上 定义 来 描述 LDA 算法 : 

d) 从 选 定 的 分 布 ( 通 常 为 泊 松 )， 采 样 得 到 每 篇 文档 Ni 的 长 度 。 
(2) 对 于 每 篇 文档 d;， 采 样 一 个 主题 分 布 g;， 作 为 狄 利克 雷 分 布 Dira), HP iE 1,… 

M, a 参数 是 一 个 长 度 为 K 的 向 量 ， 使 得 



















































































r{ Sa, | K 
) = x d=0 TOS 
I Irc» ^ 
(3) 从 多 项 分 布 z,~Multinominal(6,) RREI di 中 单词 n 的 主题 。 


(4) 对 于 每 篇 文档 4d;、 每 个 单词 n 和 每 个 主题 z,. MAE b 的 z, 行 指定 的 词 频 分 布 w~ 
Bz» 采样 生成 单词 Wno 


算法 的 目标 是 ， 对 于 每 篇 文档 ， 最 大 化 后 验 概率 ， 


p(0, ja 



























































_ p(0,2.d, o. p) 
PUEROS e 
根据 条 件 概 率 的 定义 ， 分 子 变 为 : 
p(0,z,dila,B)=p(dilz,B)p(z,l0,)p(0.l0) 
































因此 ,给 定 主题 向 量 z 和 单词 概率 矩阵 b, 文档 i 的 概率 可 以 表示 为 单个 单词 概率 的 连 乘 














N; 


z.) - DIA... 


由 于 z 这 个 向 量 ， 只 有 第 j ATA z=, HATA O, WA p(z0)-(0) BRA 
上 面 的 式 (2): ® 


pla, 



































© ff p(Q, 2, d; | a P) = p(di| 2, A) pQ, |Q) p(Qo)- 一 一 译 者 注 





(1)“ 式 的 分 母 ， 即 文档 的 边缘 分 布 ， 对 di 积分 ， 对 
果 和 每 个 主题 分 布 (p 矩阵 的 各 行 ) 下 的 单 
这 些 内 容 超出 了 本 书 的 范 
参数 a 叫 作 和 集中 参数 (concentration parameter), 
为 1 (或 k， 狄 利克 雷 分 布 的 维度 ， 主 题 模 型 文献 所 
值 时 ， 所 得 到 的 分 布 中 几乎 所 有 主题 





终结 
方法 来 求解 ; 

















集中 参数 值 





相等 。 而 集中 参数 取 接 近 0 的 极 


H 
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z 求 和 就 能 得 到 。 主 题 分 布 qi 的 最 




















词 概率 ， 

















围 。 





























个 主题 (各 单词 不 
举 个 





列子 ，10 万 维 


E 


TARA, 
p 


分 











许 H 


万 级 

















1L 百 个 音 























词 表 示 。 





它 表 明 分 布 扩展 到 可 能 的 值 


S817) Ji Ccategorical distribution), FJ} 
Ph 参数 标准 取 值 在 0.01 810.001 之 间 ， 如 果 词 》 
tiu, Dux : 





i ALAHE Wt (approximated inference ) 








上 的 程度 。 
本 用 的 定义 )， 各 组 的 概率 
可 能 都 集中 到 其 






































它们 分 属于 少数 几 个 主题 ) 
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主题 也 
BIA 


[ 量 为 10 73, 
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| ELE 
FEL 











根据 L. Li fI Y. Zhang 的 论文 An empirical study of text classification using Latent Dirichlet 


Allocation CH] LDA 为 文本 分 类 的 实说 
然而 ， 即 使 该 方法 在 多 种 应 用 上 表现 不 错 ， 还 是 有 一 些 问题 要 考虑 。 模 型 








FJ] 

















表明 每 次 运行 结果 可 色 
2. LDA 主题 
BNF 

THAE H 



































AE 


FLL 
过。 我 们 接 下 来 测试 LDA 模 





EAA]. b^, SH 
页 分 类 示例 
网 页 数据 集 textreviews， 在 4.3. 



































o 


FF), LDA 可 以 用 作文 本 模型 的 降 维 


FP 参数 的 选取 也 很 


型 是 否 能 够 将 影评 分 成 不 同 的 主题 。 
放 到 我 的 GitHub 主页 ， 请 从 https:/ erp, com/ai2010/machine learning for the web/tree/ 


master/chapter _ 4/ 下 载 postprocessing.ipynb 这 个 文 从 








Ek , 非常 "m CHA. 
的 初始 化 是 随机 的 ， 这 
还 没有 标准 化 的 选取 方 汶 
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查询 示例 ”中 已 
下 面 代码 已 经 


1 小 节 中 的 “7. 影 记 











In [6]: 





#LDA 
import gensim.models 
from gensim import models 


from nltk.tokenize import Re 


tknzr = RegexpTokenizer(r" m» at teens [^w Ne]) | (\W)) + 





=b 
self.dictionary = gensim.corpora.Dictionary(self.iter docs(texts, 


(self.texts, self.stoplist): 
s 





"it len(self.bestwor: reed 
zis eld (x for x in tknzr.tokenizi 


else 
eee eld (x for x in tknzr.tokenize(text) if x 


mum topic 
orpus = 
dict lda 


Gen Se s(tot textreviews, 
= corpus.dictionary 


stoplist,[],False) 


+ gaps=True) 


if 
E (stemmer.stem(w) for w in [x for x in tknzr. 
el 


e(text) if x in self.bestwords) 


not in stoplist) 


stoplist)) 


tokenize(text) if x not in stoplist]) 











O 原 书 未 标明 的 〈1) 式 ， 


指 的 是 最 大 化 后 验 概率 的 那个 式 子 。 一 一 译 者 注 
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我 们 照旧 对 每 篇 文档 进行 分 词 〈 这 次 使 用 另 一 个 分 词 器 )， 并 且 删 除了 停 用 词 。 为 了 得 
到 更 好 的 结果 ， 我 们 过 滤 掉 不 会 给 网 页 增加 任何 信息 、 出 现 频率 最 高 的 词语 〈 比 如 movie 
和 fm)。 我 们 忽略 出 现 次 数 在 1000 次 以 上 或 少 于 3 次 的 单词 : 


In [7]: import copy 
#filter out very common words like mobie and film or very unfrequent terms 
out ids = [tokenid for tokenid, docfreq in dict lda.dfs.iteritems() if docfreq > 1000 or docfreq < 3 ] 
dict lfq = copy.deepcopy(dict_lda) 
dict lfq.filter tokens(out ids) 
dict lfq.compactify() 
corpus = [dict lfq.doc2bow(tknzr.tokenize(text)) for text in tot textreviews] 


现在 ， 我 们 可 以 训练 10 个 主题 的 LDA 模型 (passes 为 用 整个 文档 集训 练 的 次 数 ): 


In [8]: lda_lfq = models.LdaModel(corpus, num_topics=num_topics, id2word-dict lfq,passes-10, iterations=50,alpha=0.01,eta=0.01) 
for t in range(num_topics): 
print ‘topic ',t,' words: ',lda lfq.print topic(t,topn-10) 
print 


















































上 述 代 码 返回 与 每 个 主题 最 相关 的 10 个 单词 : 


topic 0 words: 0.009*best + 0.008*life + 0.008*although + 0.008*great + 0.007*director + 0.006*own + 0.006*see + 
0.006*town + 0.006*doesn + 0.005*still 





topic 1 words: 0.014*see + 0.010*know + 0.008*bad + 0.008*off + 0.008*think + 0.007*plot + 0.007*could + 
0.007*re + 0.007*life + 0.007*m 


topic 2 words: O.011*disney + 0.009*off + 0.009*action + 0.009*plot + 0.008*love + 0.008*1ife + 0.007*wild + 
0.007*could + 0.006*mulan + 0.006*new 


topic 3 words: 0.009*scene + 0.008*life + 0.007*new + 0.007*know + 0.007*doesn + 0.007*off + 0.007*could + 
0.006*bad + 0.006*director + 0.006*see 


topic 4 words: 0.014*truman + 0.009*life + 0.009*best + 0.008*doesn + 0.007*scene + 0.007*own + 0.007*world + 
0.007*sandler + 0.007*see + 0.006*new 


topic 5 words: 0.009*bad + 0.008*big + 0.008*off + 0.007*plot + 0.007*doesn + 0.007*director + 0.007*scene + 
0.007*go + 0.006*see + 0.006*better 


topic 6 words: 0.013*plot + 0.012*action + 0.012*alien + 0.011*bad + 0.009*new + 0.008*off + 0.008*planet + 
0.008*see + 0.007*could + 0.006*scene 


topic 7 words: 0.013*action + 0.009*plot + 0.007*war + 0.007*off + 0.007*see + 0.007*re + 0.007*van + 
0.006*director + 0.006*great + 0.006*made 


topic 8 words: 0.012*love + 0.009*best + 0.008*see + 0.007*could + 0.007*1ife + 0.006*new + 0.006*scene + 
0.006*off + 0.006*go + 0.006*re 


topic 9 words: 0.016*life + 0.010*world + 0.007*scene + 0.007*could + 0.006*mother + 0.006*own + 0.006*love + 
0.006*role + 0.006*off + 0.006*father 


虽然 ， 生 成 的 单词 不 是 都 能 很 好 地 阐释 这 10 个 主题 , 但 我 们 显然 可 以 看 到 主题 2 的 几 
个 单词 disney, mulan (Disney 拍 的 一 部 电影 )、love 和 life 表明 主题 2 跟 动 画 影片 相关 ， 
而 主题 6 的 action, alien, bad 和 planet 单词 与 科幻 电影 相关 。 实 际 上 ， 我 们 可 以 查询 所 有 
电影 中 最 可 能 属于 主题 6 的 : 


In [9]: #topics for each doc 
def GenerateDistrArrays(corpus): 
for i,dist in enumerate(corpus[:10]): 
dist array - np.zeros(num topics) 
for d in dist: 
dist array|d[0]] -d[1] 
if dist array.argmax() == 6 : 
print tot titles[i] 
corpus lda = lda_lfq[corpus] 
GenerateDistrArrays(corpus lda) 
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返回 结果 如 下 : 


Rock Star (2001) 

Star Wars: Episode I - The Phantom Menace (1999) 
Zoolander (2001) 

Star Wars: Episode I - The Phantom Menace (1999) 
Matrix, The (1999) 

Volcano (1997) 

Return of the Jedi (1983) 

Daylight (1996) 

Blues Brothers 2000 (1998) 

Alieng#179; (1992) 

Fallen (1998) 

Planet of the Apes (2001) 




















大 多 数 电影 显然 是 科幻 和 幻想 片 ， 因 此 LDA 算法 将 它们 聚 到 一 起 是 正确 的 。 




































































以 用 聚 类 算法 ( 详 见 第 2 32) 处 理 ， 我 们 将 其 留 给 读者 练 手 ， 这 里 不 有 有 




















结果 跟 书 中 不 同 ， 也 很 正常 )。 
44.2. 观点 挖掘 〈 情感 分 析 ) 

















请 注意 主题 空间 Cda_lfg[corpus]) 里 的 文档 表示 〈document representation)， 我 们 还 可 


PEOR. Wo, XRUE 


注意 ， 由 于 模型 的 初始 化 是 随机 的 ， 每 次 运行 LDA 算法 ， 其 结果 也 许 不 同 〈 如 果 你 得 到 的 





观点 挖掘 或 情感 分 析 这 一 领域 研究 如 何 抽取 当事人 的 观点 ， 这 些 观点 通常 分 为 积极 或 
消极 《或 中 性 ) 的 。 这 类 分 析 非 常 实 用 ， 在 营销 领域 尤其 如 此 ， 我 们 可 据 此 找 出 公众 对 产 
品 或 服务 的 观点 。 观 点 挖掘 的 标准 方法 是 将 情感 (或 极 性 )、 积 极 或 消极 作为 分 类 问题 的 目 
标 类 别 。 文 档 集 的 特征 数 为 词汇 表 所 有 不 同 单词 的 数量 。 分 类 器 通常 用 SVM 和 朴素 贝 叶 

































































斯 。 举 个 例子 ， 我 们 可 以 用 上 面 测试 LDA 算法 和 信息 检索 模型 所 用 的 






































z| 


中 ， 
我 们 像 之 前 那样 导入 并 预 处 理 数 据 : 








据 集 ， 该 数据 集 已 标注 了 类 别 〈 积 极 或 消极 )。 本 节 的 所 有 代码 在 postprocessing.ipynb 文件 
J 从 https://github.com/ai2010/machine_learning for the web/tree/master/chapter 4/ 下 载 。 








2000 篇 影评 作为 数 








In [10]: import nltk 
from nltk.corpus import stopwords 
from nltk.tokenize import WordPunctTokenizer 
tknzr = WordPunctTokenizer() 


from nltk.tokenize import RegexpTokenizer 
tknzr = RegexpTokenizer(r' ((?<=[*\w\s])\w(?=[*\w\s])|(\W))+', gaps=True) 


nltk.download( ' stopwords’) 

stoplist = stopwords.words('english') 

from nltk.stem.porter import PorterStemmer 
stemmer = PorterStemmer() 





from collections import namedtuple 
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然后 ， 将 数据 集 切 分 为 训练 集 (80%) 和 测试 集 (20%)， 将 其 处 理 成 nltk 库 可 以 处 理 








def PreprocessReviews(text,stop-[],stem-False): 
#print profile 
words = tknzr.tokenize(text) 


if stem: 

words clean = [stemmer.stem(w) for w in [i.lower() for i in words if i not in stop]] 
else: 

words clean = [i.lower() for i in words if i not in stop] 


return words clean 


Review - namedtuple('Review','words title tags') 

dir = './review polarity/txt sentoken/" 

do2vecstem - True 

reviews pos = [] 

cnt = 0 

for filename in [f for f in os.listdir(dir+'pos/') if str(f)[0]!="'."]: 
f = open(dir+'pos/'+filename, 'r') 
id = filename.split('.')[0].split(' ')(1] 


cnt+=1 


reviews neg = [] 

ente 0 

for filename in [f for f in os.listdir(dir*'neg/') if str(f)[0]!-'.']: 
f = open(dir*'neg/'*filename,'r') 
id = filename.split('.')[0].split(' ')[1] 


enteel 





tot reviews * reviews pos * reviews neg 


reviews pos.append(Review(PreprocessReviews(f.read(),stoplist,do2vecstem),moviedict[id],['pos '*str(cnt)])) 


reviews neg.append(Review(PreprocessReviews(f.read(),stoplist,do2vecstem),moviedict[id],['neg '*str(cnt)])) 


























的 形式 《元 素 为 元 组 的 列表 或 是 以 文档 中 的 单词 为 锣 














E, 以 文档 对 应 的 标签 为 值 的 字典 ): 








In [11]: #split in test training sets 
def word features(words): 
return dict([(word, True) for word in words]) 


negfeatures - [(word features(r.words), 'neg') for r in reviews neg] 
posfeatures - [(word features(r.words), 'pos') for r in reviews pos] 


portionpos - int(len(posfeatures)*0.8) 

portionneg = int(len(negfeatures)*0.8) 

print portionpos, '-',portionneg 

trainfeatures = negfeatures[:portionneg] + posfeatures[:portionpos] 
print len(trainfeatures) 

testfeatures = negfeatures[portionneg:] + posfeatures[portionpos:] 
#shuffle(testfeatures) 




















现在 ， 我 们 可 以 用 nltk 库 的 NaiveBayesClassifier 分 类 器 〈 多 项 式 
和 测试 分 类 器 ， 并 检验 错误 率 ; 





朴素 贝 叶 斯 训练 








In [12]: from nltk.classify import NaiveBayesClassifier 

#training naive bayes 
classifier = NaiveBayesClassifier.train(trainfeatures) 
##testing 
err = 0 
print ‘test on: ',len(testfeatures) 
for r in testfeatures: 

sent = classifier.classify(r[0]) 

if sent != r[1]: 

err +t=1. 

print 'error rate: ',err/float(len(testfeatures)) 








上 述 代 码 得 到 28.25% 的 错误 率 ， 但 是 用 每 篇 文档 的 最 佳 二 元 组 ， 可 以 改进 结果 。 二 元 
组 指 一 组 连续 出 现 的 单词 , 我 们 用 卡 方 检验 ?寻找 不 是 偶然 而 是 频繁 共 现 的 二 元 组 。 这 些 


特殊 的 二 元 组 包含 文档 的 相关 信息 ， 用 自然 语言 处 到 
































的 术语 来 讲 ， 它 们 叫 作 搭配 

















(collocation )。 例 如 ， 给 定 由 两 个 词 wl 和 w2 组 成 的 二 元 组 ， 语 料 库 中 共有 N 个 可 能 的 二 
元 组 。 我 们 给 出 零 假 设 w1 和 w2 是 否 出 现 彼此 不 相干 。 我 们 可 以 将 二 元 组 的 出 现 次 数 Cw, 


w2) 和 



































其 余 可 能 的 二 元 组 的 出 现 次 数 用 和 矩阵 O 来 表示 ， 见 表 4.1: 











4.1 


44 信息 





的 后 处 理 115 














wl dE wl 
w2 10 901 
dE w2 345 1111111 














那么 , X WE 


























(因此 O10), Ey NTA Gj) WRENNER Cli, E, = | 





























JEN X HSE ，0; 表 示 由 单词 G 组 成 的 二 元 组 的 出 现 次 数 


(Oy, * On) | (Ow xe Oro) 





N 


wo. 
N 











凭 直觉 不 难看 出 ,观察 到 的 频数 Oy 与 期 望 平均 数 差别 越 大 , X ioi. BERT DUBAI SR 


Wr. REA ACA MCS — 70 2H Ee ee, (LE RR. X^ 值 可 
用 ftest〈 也 叫 作 均 方 列 联系 数 ") 乘 以 二 元 组 总 数 Y 得 到 ， 如 下 所 示 : 


O40, - O40, 
MO. + O,;)(Oo, + Ow (Os, + OJOS + Oo) 








= NO 办 从 = 





关于 搭配 和 了 ?检验 的 更 多 内 容 ， 请 参考 C. D. Manning 和 H. Schuetze (1999) 合 著 的 
Foundations of Statistical Natural Language Processing 《统计 自然 语言 处 理 基 础 》)。 顺 便 提 
一 下 ， 作 为 信息 增益 的 一 种 度量 方法 , 我 们 可 将 尺 看 作 是 一 种 我 们 在 第 3 
择 方法 。 我 们 借助 nitk 库 ， 用 不 方法 选择 每 篇 文档 的 500 个 最 佳 二 元 组 特征 ， 再 次 训练 朴 
素 贝 叶 斯 分 类 器 ， 代 码 如 下 : 















































In [16]: 


import itertools 

from nltk.collocations import BigramCollocationFinder 
from nltk.metrics import BigramAssocMeasures 

from random import shuffle 


#train bigram: 

def bigrams words features(words, nbigrams=200,measure=BigramAssocMeasures.chi_sq): 
bigram finder - BigramCollocationFinder.from words(words) 
bigrams = bigram finder.nbest(measure, nbigrams) 
return dict([(ngram, True) for ngram in itertools.chain(words, bigrams)]) 


negfeatures = [(bigrams words features(r.words,500), 'neg') for r in reviews neg] 
posfeatures = [(bigrams words features(r.words,500), 'pos') for r in reviews pos] 
portionpos = int(len(posfeatures)*0.8) 
portionneg = int(len(negfeatures)*0.8) 
print portionpos, '-',portionneg 
trainfeatures = negfeatures[:portionpos] + posfeatures[:portionneg] 
print len(trainfeatures) 
classifier = NaiveBayesClassifier.train(trainfeatures) 
##test bigram 
testfeatures = negfeatures[portionneg:] + posfeatures[portionpos: ] 
shuffle(testfeatures ) 
err = 0 
print 'test on: ',len(testfeatures) 
for r in testfeatures: 
sent = classifier.classify(r[0]) 


#print r[1],'-pred: ',sent 
if sent != r[1]: 
err +=1. 
print 'error rate: ',err/float(len(testfeatures)) 


章 定 义 的 特征 选 











© 英文 为 “mean square contingency coefficient”。 一 一 译 者 注 
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这 一 次 错误 率 降 到 20%, ARP TTI RE X EID n] FRM Ae np 
言 息 量 最 大 的 单词 。 我 们 可 以 度量 单个 单词 的 词 频 与 它 在 积极 (或 消极 ) 文档 中 词 频 之 间 
的 差距 ， 为 单词 的 重要 性 打分 例如 ， 如 果 单 词 great 在 积极 评论 中 的 X" 值 高 于 它 在 消极 
评论 的 X" 值 ， 这 表明 该 词 能 够 给 出 评论 是 积极 的 这 一 信息 )。 我 们 分 别 计算 每 个 单词 在 全 
部 语 料 、 积 极 语 料 和 消极 语 料 的 词 频 ， 抽 取 全 部 语 料 中 1 万 个 最 重要 的 单词 ， 代 码 如 下 : 


In [21]: import nltk.classify.util, nltk.metrics 
tot_poswords = [val for 1 in [r.words for r in reviews pos] for val in 1] 
tot_negwords = [val for 1 in [r.words for r in reviews neg] for val in 1] 
from nltk.probability import FreqDist, ConditionalFreqDist 
word fd = FreqDist() 
label word fd = ConditionalFreqDist() 
























































for word in tot poswords: 
word fd[word.lower()] +=1 
label word fd[ pos'][word.lower()] +=1 


for word in tot negwords: 

word fd[word.lower()] +=1 

label word fd| 'neg' }[word.lower()] +=1 
pos words - len(tot poswords) 
neg words = len(tot negwords) 


tot words = pos words + neg words 
#select the best words in terms of information contained in the two classes pos and neg 
word scores - () 


for word, freq in word fd.iteritems(): 
pos score - BigramAssocMeasures.chi sq(label word fd['pos'][word], 
(freq, pos words), tot words) 
neg score * BigramAssocMeasures.chi sq(label word fd['neg'][word], 
(freq, neg words), tot words) 
word scores[word] = pos score + neg score 
print 'total: ',len(word scores) 
best = sorted(word scores.iteritems(), key-lambda (w,s): s, reverse-True)[:10000] 
bestwords - set([w for w, s in best]) 


现在 , 我 们 只 用 每 篇 文章 中 最 具 区 分 性 的 单词 
斯 分 类 器 : 
In [22]: #training naive bayes with chi square feature selection of best words 


def best words features(words): 
return dict([(word, True) for word in words if word in bestwords]) 






































bestwords 里 面 的 单词 训练 朴素 贝 叶 





negfeatures = [(best words features(r.words), 'neg') for r in reviews neg] 
posfeatures - [(best words features(r.words), 'pos') for r in reviews pos] 
portionpos - int(len(posfeatures)*0.8) 
portionneg - int(len(negfeatures)*0.8) 
print portionpos,'-',portionneg 
trainfeatures - negfeatures[:portionpos] * posfeatures[:portionneg] 
print len(trainfeatures) 
classifier - NaiveBayesClassifier.train(trainfeatures) 
##test with feature chi square selection 
testfeatures - negfeatures[portionneg:] * posfeatures[portionpos:] 
shuffle(testfeatures) 
err = 0 
print ‘test on: ',len(testfeatures) 
for r in testfeatures: 

sent = classifier.classify(r[0]) 

#print r[1],'-pred: ',sent 

if sent != r[1]: 

err +=1。 

print 'error rate: ',err/float(len(testfeatures)) 


背 误 率 为 12.75%， 鉴 于 我 们 数据 集 相 对 较 小 ， 这 个 错误 率 可 以 说 是 相当 低 了 。 如 要 保 
证 结果 更 加 可 靠 ,应 使 用 交叉 检验 方法 ( 见 第 3 章 ), 请 读者 自行 练习 。 我 们 还 可 以 用 Doc2Vec 





























— 











向 量 (4.3 节 “7. 影 评 查 询 示 例 ” 中 计算 过 ) 训练 分 类 
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4.5 小 结 


器 。 假 定 ， 我 们 已 得 到 Doc2Vec HÆ, 








并 完成 训练 ， 将 其 存储 到 model d2v.docvecs 对 象 之 上 
训练 集 (80%) 和 测试 集 (20%): 





FP， 我 们 按照 先前 做 法 将 数据 集 切 分 为 





In [23]: #split train,test sets 


trainingsize = 2*int(len(reviews_pos)*0.8) 


train_d2v = np.zeros((trainingsize, vec_size)) 
train_labels = np.zeros(trainingsize) 
test_size = len(tot_reviews)-trainingsize 
test_d2v = np.zeros((test_size, vec_size)) 
test_labels = np.zeros(test_size) 


cnt train = 0 
cnt test = 0 
for r in reviews_pos: 
name pos = r.tags[0] 
if int(name pos.split(' ')[1])>= int(trainingsize/2.): 
test d2v[cnt test] = model d2v.docvecs[name pos] 
test labels[cnt test] = 1 
cnt test +=1 
else: 
train d2v[cnt train] = model d2v.docvecs[name pos] 
train labels[cnt train] = 1 
cnt train +=1 


for r in reviews neg: 

name neg = r.tags[0] 

if int(name neg.split(' ')[1])?- int(trainingsize/2.): 
test d2v[cnt test] - model d2v.docvecs[name neg] 
test labels[cnt test] - 0 
cnt test +=1 

else: 
train d2v[cnt train] = model d2v.docvecs[name neg] 
train labels[cnt train] - 0 
cnt train +=1 














, 


训练 SVM 分 类 器 〈 径 向 基 内 核 RBF) 或 对 数 几 率 回 归 模 型 





In [27]: #train log regre 

from sklearn.linear model import LogisticRegression 
classifier - LogisticRegression() 
classifier.fit(train d2v, train labels) 


print 'accuracy:',classifier.score(test d2v,test labels) 


from sklearn.svm import SVC 

clf - SVC() 

clf.fit(train d2v, train labels) 

print 'accuracy:',clf.score(test d2v,test labels) 














逻辑 回归 和 SVM 正确 率 非常 低 ， 分 别 为 0.5172 和 0.5225, =e 











原因 在 于 数据 集 非 常 








无 法 训练 包含 多 个 参数 的 算法 ， 比 如 神经 网 络 。 
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本 章 讨论 了 Web AZtjmj23 




















处 理 
重要 的 推荐 系统 算法 。 














用 和 最 先进 的 算法 ，4 
现 它们 。 学 完 本 章 ， 你 应 该 已 经 清楚 地 理解 Web 数据 挖掘 领域 的 难 
其 中 一 些 较为 棘手 的 问题 的 能 力 。 下 一 章 ， 我 们 将 讨论 当前 商业 领域 所 使 用 的 、 最 为 





了 如 何 用 多 种 Python 库 来 实 
点 ， 有 具备 用 Python 语言 
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只 要 是 可 选 的 产品 或 服务 较 多 ， 用 户 无 法 在 合理 的 时 间 范 围 内 评价 它们 的 好 坏 ， 自 然 就 有 
使 用 推荐 系统 的 必要 。 推 荐 引擎 可 以 帮助 线 上 的 卖家 ， 从 大 量 与 终端 用 户 不 相关 的 备 选 商 品 中 ， 
找 出 用 户 有 意 购买 的 商品 ， 因 此 它 是 电子 商务 平台 的 重要 部 件 。 推 荐 系统 的 典型 应 用 见于 
Amazon, Netflix, eBay 和 Google Play 商店 ， 这 些 产 品 利用 收集 到 的 历史 数据 ， 向 每 位 用 户 推荐 
他 们 也 许 想 购买 的 商品 。 过 去 20 年 ， 人 们 发 明了 多 种 推荐 技术 , 我 们 重点 介绍 如 今 为 业界 采用 、 
最 重要 的 推荐 技术 , 并 指出 每 种 方法 的 优 缺 点 ,这 些 推荐 系统 分 为 基于 内 容 的 过 滤 (Content-based 
Filtering, CBF) 和 协同 过 滤 (Collaborative Filtering，CF)。 我 们 还 会 讨论 其 他 推荐 方法 (关联 
规则 、 对 数 似 然 和 混合 推荐 ) 及 如 何 用 多 种 不 同方 法 评估 推荐 方法 的 正确 率 。 我们 用 MovieLens 
数据 集 (http://grouplens.org/datasets/movielens/), 它 包括 943 名 用 户 对 1682 部 电影 的 评分 数据 (分 
数 从 1 到 5 共 5 等 )， 总 数量 有 10 万 条 。 每 名 用 户 至 少 给 20 部 电影 打 过 分 ， 每 部 电影 从 属于 多 
个 类 型 。 本 章 代 码 依 旧 可 从 GitHub 下 载 ， 文 件 夹 地 址 https://github.com/ai2010/machine_ 
learning for the web/tree/master/chapter 5， 代 码 文件 为 rec sys methods.ipynb. 


讨论 推荐 算法 之 前 ， 我 们 先 介绍 主要 的 矩阵 和 常用 的 度量 标准 ， 以 便 准备 数据 集 、 建 
立 推 荐 系统 。 


5.1 效用 和 矩阵 
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推荐 系统 用 到 两 类 数据 : 用 户 和 商品 。 每 名 用 户 喜 欢 特定 的 几 种 商品 。 评 分 方 〈1 $055 
将 用 户 i 和 商品 j 联 系 起 来 ， 表示 用 户 喜 欢 商 品 的 程度 。 把 这 些 数据 收集 起 来 ,用 算 阵 来 表示 ， 
这 样 的 矩阵 叫 作 效用 矩阵 Cutility matrix) R。 和 矩阵 的 每 一 行 i， 表 示 用 户 i 为 哪些 商品 打 过 分 ; 
矩阵 的 每 一 列 7 表示 所 有 为 商品 j 打 过 分 的 所 有 用 户 。 下 面 例子 ， 我 们 找到 ml-100k 文件 夹 中 
的 u.data 文件 (和 uitem 文件 , 它 存 储 电 影 名 称 ), 将 其 读 入 进来 , 转换 为 pandas 的 DataFrame 
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对 象 ( 处 理 后 将 得 到 的 效用 矩阵 保存 为 csv 格式 ， 即 utilitymatrix.esv 文件 )， 代 码 如 下 : 











In [34]: import numpy as np 
import pandas as pd 
import copy 
import collections 
from scipy import linalg 
import math 
from collections import defaultdict 


In [35]: #data 
df = pd.read csv('./data/ml-100k/u.data',sep-'MVt',header-None) 
#movie list 
df info = pd.read_csv('./data/ml-100k/u.item',sep=' | ',header=None) 


nmovies = len(movielist) 
nusers = len(df[0].drop duplicates().tolist()) 


min_ratings = 50 

movies rated = list(df[1]) 

counts * collections.Counter(movies rated) 
dfout = pd.DataFrame(columns-['user']*movielist) 


toremovelist - [] 
for i in range(1,nusers): 
tmpmovielist = [0 for j in range(nmovies)] 
dftmp -df[df[0]--i] 
for k in dftmp.index: 
if counts[dftmp.ix[(k][1]]>= min ratings: 
tmpmovielist[dftmp.ix[k][1]-1] * dftmp.ix[k][2] 


else: 
toremovelist.append(dftmp.ix[k][1]) 
dfout.loc[i] = [i]*tmpmovielist 


toremovelist = list(set(toremovelist)) 
dfout.drop(dfout.columns[toremovelist], axis=1, inplace=True) 
dfout.to csv('data/utilitymatrix.csv',index-None) 


movielist = [df info[1].tolist()[indx]*';'*str(indx*1) for indx in xrange(len(df info[1].tolist()))] 





前 两 行 代码 输出 如 下 : 





In [38]: df = pd.read csv('data/utilitymatrix.csv') 





























df.head(2) 
Out( 38): Dead 
Toy Four Get Twelve Richard Cool 
user | Story wer Rooms |Shorty (1995);5 Monkeys pea veh ~ | Runnings a i 039 
(1995);1 (1995);3 |(1995);4 (1995);7 à Mono (1995);10 |(1993):1035 : 
oi |s 3 4 B [s 4 1 |s |s 0 0 | 
1|2 |4 lo lo |o lo 0 0 lo l2 ..|o 0 | 








2 rows x 604 columns 


























除去 第 1 列 《〈 列 命 为 user， 表 示 用 户 的 ID)， 每 一 列 的 列 名 包 提 
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两 部 分 : 电影 的 名 称 
和 它 在 MovieLens 数据 库 中 的 ID, 这 两 部 分 用 英文 分 号 隔 开 。 矩阵 中 , 元 素 0 表示 缺失 值 ， 
因为 用 户 打 过 分 的 电影 远 少 于 1600 部 ， 所 以 很 多 元 素 都 是 0。 请 注 
分 的 电影 已 从 效用 和 矩阵 删除 ， 所 以 总 列 数 为 604 EF 50 个 评分 的 电 


因为 少 于 50 个 评 























荐 系统 的 目标 是 预测 这 些 缺 失 的 元 素 ， 但 为 了 使 用 某 些 预测 技术 ， 我 们 需要 为 缺失 元 素 赋 
初始 值 〈 插 值 ，imputation)。 常 见 的 插值 方法 有 两 种 : 每 位 用 户 给 出 的 平均 分 或 每 件 商品 

















的 平均 分 ， 这 两 种 方法 见 下 面 这 个 函数 : 











In [4]: def imputation(inp,Ri): 

Ri = Ri.astype(float) 

def userav(): 
for i in xrange(len(Ri)): 

Ri[i][Ri[i]--0] = sum(Ri[i])/float(len(Ri[i][Ri[i]»0])) 

return Ri 

def itemav(): 
for i in xrange(len(Ri[0])): 


return Ri 
switch = ('useraverage':userav(), itemaverage':itemav()) 
return switch[inp] 





Ri[:,i][Ri[:,i]--0] = sum(Ri[:,i])/float(len(Ri[:,i][Ri[:,i]»0])) 
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本 章 实 现 的 多 个 算法 都 会 调用 该 函数 ， 因 此 为 了 后 续 使 用 方便 ， 我 们 这 里 先行 讨论 了 
该 函数 。 此 外 ， 本 章 的 效用 和 矩阵 丸 为 NxM 维 ， 表示 NN 个 用 户 、M 个 商品 。 由 于 不 同 算法 
重复 用 相似 度 度量 方法 ， 我 们 接 下 来 给 出 几 个 最 通用 的 定义 。 

9.2 ”相似 度 度量 方法 
向 量 x 和 ?了 可 以 是 用 户 ( 效 用 和 矩阵 的 行 ) 或 商品 (效用 和 矩阵 的 列 )， 它 们 之 间 常 用 的 相 











似 度 度量 方法 有 以 下 两 种 : 





[> xy, 
i © 
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Le; 396, - 3) 


。 余弦 相似 度 : s(x, y) = 





© BURR RM s(x, y) = 








IZ (x -zy J (y, - 9» 





























» x 入 分 别 为 两 个 向 量 的 均值 。 




















沦 不 























这 两 种 度量 方法 ， 若 均值 为 0， 结 果 碰 巧 相同 。 有 了 这 些 知识 ， 我 们 可 以 开始 讨 ; 
同 的 推荐 算法 ， 先 讲 协同 过 滤 。 先 说 一 下 ， 需 要 计算 两 个 向 量 之 间 的 相似 度 时 ， 用 下 面 这 
个 sim0 函 数 : 
m Un aS Cur stance duper’ od 











y Im 


我 们 用 SciPy ER SE ELAS E CE Ix PA A DE CELER 
1 减 去 cosine 函数 的 返 




















我 们 上 面 讲 的 刚好 相反 ， 因 此 需要 再 用 


5.3 协同 过 滤 方 法 








Y 
T de: 








scipy 余弦 相似 度 的 定义 与 
In fü. 


























这 类 推荐 方法 背后 的 思想 是 ， 














用 户 喜欢 相似 用 户 喜 欢 的 商品 。 
基本 假设 是 ， 与 用 户 B 相似 的 用 户 4， 给 商品 打 的 分 数 很 可 能 与 B 相同 。 实 际 操作 中 ， 


简单 来 讲 ， 我 们 所 做 的 
我 












































们 可 用 两 种 方式 实现 这 
(D 原 书 此 处 公式 有 误 ， 分 子 去 掉 根 号 。 一 一 译 者 注 
Q) 原 书 “where x and y are the averages of the two vectors” 中 的 





一 概念 : 比较 不 同 用 户 的 品位 ， 根 据 最 相似 用 户 的 品位 ， 预 测 某 用 


“x” 和 “y” 实 则 为 X 和 y 。 一 一 译 者 注 
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人 抽取 打分 模式 ， 根 据 这 些 模 式 预测 打分 〈 基 于 
模型 )。 这 两 种 方法 都 需 量 数据 ， DR EN LE 取决 于 数据 中 有 多 少 
相似 用 户 。 Me op 个 问题 已 有 比较 充分 地 研究 ， 相 关 文 献 通常 
建议 我 们 结合 使 用 CF 和 CBF. MovieLens 3 SAMT 我 们 假定 数据 充足 ， 不 存在 冷 启动 
问题 。CF 算法 的 其 他 常见 问题 还 有 : 
1) 可 扩展 性 ， 因 为 随 着 用 户 和 产品 数量 的 增加 ， 计 算 量 也 会 增加 (也许 有 必要 采用 并 
行 计 算 技术 ); 
2) 稀疏 的 效用 矩阵， 因为 通常 用 户 只 为 少数 商品 打分 〈 一 般 答 试用 插值 解决 这 个 
问题 ) 
5.3.1 基于 记忆 的 协同 过 滤 


这 一 类 协同 过 滤 方 法 ， 利 用 效用 矩阵， 计算 用 户 或 商品 之 间 的 相似 度 。 虽 然 这 些 方 法 
存在 可 扩展 性 和 冷 启动 问题 ， 但 是 若 效 用 抢 阵 较 大 或 非常 小 时 ， 现 在 很 多 商用 系统 选用 的 
却 正 是 该 类 方法 。 我 们 接 下 来 讨论 基于 用 户 的 协同 过 滤 和 基于 商品 的 协同 过 滤 。 

1. 基于 用 户 的 协同 过 滤 
该 算法 用 k-NN 方法 〈 见 第 3 章 ) 找 出 与 给 定 用 户 打分 记录 相似 的 用 户 ， 对 他 们 的 打 
分 取 加 权 平 均值 ， 补 上 当前 用 户 的 缺失 值 。 
算法 描述 如 下 : 

对 于 任意 给 定 用 户 i 及 其 没有 标记 过 的 商品 j: 
a) 用 相似 度 度量 方法 s， 找 出 K 个 为 商品 j 打 过 分 的 最 相似 用 户 。 


(2) 对 于 用 户 i 没有 打分 的 每 种 商品 j， 取 天 个 用 户 打 分 的 加 权 平 均值 作为 用 户 i 为 j 
打 的 分 数 : 









































































































































































































































































































































































































































K 
Ds Arg 77) 


k=0 
K 
Ys’ 


k=0 

志和 元 分 别 为 用 户 i Ak TIP, Pe SASS EEN CHER 
户 打 分 很 恢 慨 ， 有 的 则 很 挑剔 )，s(i, 有 表示 相似 度 ， 前 面 已 讲 过 。 我们 甚至 还 可 以 利用 用 户 
打分 的 分 散 程度 规范 化 预测 分 数 ， 使 分 数 更 具 可 比 性 : 








Pi - Tj 3 
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c; fll o, DAH i Al k PRAT A RHE Ze 
该 算法 以 近邻 数 开 作为 参数 , K 的 取 值 通常 为 20 一 50， 大 多 数 应 用 使 用 该 范围 的 取 值 





即 可 。 以 往 的 实验 结果 表明 ， 


























用 皮尔 逊 相关 系数 得 到 的 结果 要 好 于 余弦 相似 度 ， 这 很 可 能 
































是 因为 计算 皮尔 逊 相关 系数 时 ， 减 去 用 户 打 的 平均 分 ， 相 关 性 公式 让 用 户 更 具 可 比 性 。 下 























面 代码 给 出 每 个 用 户 的 缺失 值 的 预测 值 。 


























其 中 ，u_vec 表示 用 户 打 的 分 数 ， 函 数 FindKNeighbours.CalcRating 用 前 面 刚 讲 过 的 公 
I JM u vec 找到 天 名 相似 用 户 的 分 数 ， 计 算 预 测 分 数 (没有 调整 预测 分 数 的 分 布 )。 如 果 
效用 和 矩阵 过 于 稀疏 ， 找 不 到 近邻 ， 将 用 户 自 己 打分 的 平均 分 作为 预测 结果 返回 。 预 测 值 车 















































大 于 5 或 小 于 1， 分 别 将 其 设置 为 5 或 1。 























In [51]: def CF userbased(u_vec,K,data,indxs=False): 
def FindKNeighbours(r,data,K): 
neighs - [] 
cnt=0 
for u in xrange(len(data)): 
if data|u,r]»0 and cnt<K: 
neighs.append(data[u]) 
ent +=1 
elif cnt==K: 
break 
return np.array(neighs) 


def CalcRating(u_vec,r,neighs): 
rating = 0. 
den = 0. 
for j in xrange(len(neighs)): 


den += abs(neighs[j][-1]) 
if den»0: 
rating = np.round(u vec[u vec»0].mean()*(rating/den),0) 
else: 
rating = np.round(u vec[u vec»0].mean(),0) 
if rating»5: 
return 5. 
elif ratingcl: 
return 1. 
return rating 
#add similarity col 
data = data.astype(float) 
nrows = len(data) 
ncols = len(data[0]) 
data sim = np.zeros((nrows,ncols*1)) 
data sim[:,:-1] = data 
#cale similarities: 
for u in xrange(nrows): 


data sim[u,ncols] = sim(data sim[u,:-1],u vec,'pearson') 
else: 
data sim[u,ncols] = 0. 
#order by similarity: 
data sim -data sim[data sim[:,ncols].argsort()][::-1] 
#find the K users for each item not rated: 
u rec = np.zeros(len(u vec)) 
for r in xrange(ncols): 
if u vec[r]**0: 
neighs = FindKNeighbours(r,data sim,K) 
#calc the predicted rating 
nu rec[r] = CalcRating(u vec,r,neighs) 
if indxs: 
#take out the rated movies 
seenindxs = [indx for indx in xrange(len(u vec)) if u vec[indx]»0] 
u rec[seenindxs] = -1 
recsvec = np.argsort(u rec)[::-1][np.argsort(u rec)»0] 


return recsvec 
return u rec 





rating += neighs[j][-1]*float(neighs[j][r]-neighs[j][neighs[j]»0][:-1].mean()) 


if np.array equal(data sim[u,:-1],u vec)--False: #list(data_sim[u,:-1]) != list(u vec): 








2. 基于 商品 的 协同 过 滤 
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该 方法 的 基本 思想 与 基于 用 户 的 协同 过 滤 相 同 ， 只 不 过 它 计算 的 是 商品 而 不 是 用 户 的 

















相似 度 。 在 大 多 数 情 况 下 ， 用 户 的 数量 比 商 














品 的 数量 要 多 得 多 ， 而 商品 的 相似 度 可 以 提前 
































计算 ， 即 使 新 用 户 “ 如 果 用 户 数量 N 非常 大 ) 加 进来 ， 商 品 之 前 的 相似 度 也 不 会 有 较 大 变 

















化 ， 因 此 可 以 用 该 方法 实现 扩展 性 更 强 的 推荐 系统 。 
对 于 每 个 用 户 i 和 每 件 商 品 j， 算 法 描述 如 下 : 












































(1) 用 一 种 相似 度 度量 方法 s， 找 出 与 
(2) 计算 天 件 商品 分 数 的 加 权 平 均值 ， 





j 户 i 打 过 分 的 商品 最 相似 的 KK 件 商品 。 
将 其 作为 预测 值 : 





K 


Y sik rg 


Pij 





Y sGk) 


k=0 


_ k=0 


K 








计算 相似 度 时 ， 可 能 得 到 负 值 ， 因 此 为 了 让 p; ARX CIEL), BAN RK 


























考虑 商品 的 顺序 )。 基 于 商品 的 协同 过 滤 ， 
的 需要 。 


我 们 用 一 个 类 实现 该 算法 : 





















































于 0 的 相似 度 加 总 (如 果 我 们 只 想 找 出 最 佳 推 荐 商品 ， 而 不 是 计算 准确 的 分 数 ， 则 无 须 

















KK 取 20~50 的 值 ， 通 常 也 能 满足 大 多 数 应 用 





In [32]: class CF itembased(object): 
def init (self,data): 
#calc item similarities matrix 
nitems = len(data[0]) 
self.data = data 


for i in xrange(nitems): 
for j in xrange(nitems): 


else: 


items = items[items!-r] 
cnt=0 
neighitems = [] 
for i in items: 
if u vec[i]»0 and cnt<K: 
neighitems.append(i) 
cntt=1 
elif cnt==K: 
break 
return neighitems 


rating = 0. 
den = 0. 





self.simmatrix = np.zeros((nitems, 
if j>=i:#triangular matrix 
self.simmatrix[i,j] = sim(data[:,i],data[:,j]) 
self.simmatrix[i,j] = self.simmatrix[j,i] 


def GetKSimItemsperUser(self,r,K,u vec): 
items - np.argsort(self.simmatrix[r])[::-1] 


def CalcRating(self,r,u vec,neighitems): 


nitems)) 
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for i in neighitems: 
rating += self.simmatrix[r,i]*u vec[i] 
den += abs(self.simmatrix[r,i]) 
if den»0: 
rating * np.round(rating/den,0) 
else: 
rating = np.round(self.data[:,r][self.data[:,r]»0].mean(),0) 
return rating 


def CalcRatings(self,u vec,K,indxs-False): 
fu rec = copy.copy(u vec) 
u rec - np.zeros(len(u vec)) 
for r in xrange(len(u vec)): 
if u_vec[r]==0: 
neighitems = self.GetKSimItemsperUser(r,K,u vec) 
#calc predicted rating 


u rec[r] = self.CalcRating(r,u vec,neighitems) 
if indxs: 
#take out the rated movies 
seenindxs = [indx for indx in xrange(len(u vec)) if u vec[indx]»0] 


u rec[seenindxs]--1 
recsvec = np.argsort(u rec)[::-1][np.argsort(u rec)»0] 


return recsvec 
return u rec 
































CF itembased ZSR Fat p, rp SSP m AH LAE FEE simmatrix。 每 次 用 CalcRatings FÉ 
BURA PRAY, AHAN. GetKSimlItemsperUser 函数 ， 找 出 天 个 近邻 : 与 给 
XE HIP Cu. vec) 最 相似 的 用 户 。CalcRating 函数 实现 了 前 面 讨论 的 加 权 平 均值 的 计算 方法 。 
若 未 找到 近邻 ， 则 将 分 数 设 置 为 该 商品 的 平均 分 。 


. 最 简单 的 基于 商品 的 协同 过 滤 一 一 slope one 算 ; 


除了 用 前 面 讨论 的 度量 方法 计算 相似 度 ， 还 有 一 种 非常 简单 却 很 有 效 的 推荐 算法 。 
我 们 可 以 计算 得 到 矩阵 D， 它 的 每 一 个 元 素 dj 表示 商品 i 和 j 的 平均 差 值 average 


















































































































































difference): 


> 人 nj) n; 
d. = 一 
k 
"ny 


y 
k=1 






































ERMINI, Don) RT 








1 Tir, , r,, >0 
如 果 用 户 为 商品 i 和 j SEA. nk = ut Ny 
un AHJ ALS Ny f (打分 数据 缺失 ) 


为 商品 i 和 j 都 打 过 分 的 用 户 数 。 该 算法 跟 我 们 在 大 于 诀 如 认 碎 局 过 小 一 节 所 讲 的 相同 。 对 
于 每 名 用 户 i 和 每 件 商品 j: 

CD 找 出 与 商品 j 差 值 最 小 的 件 商品 ，4,*%…, qd) "edu sd, (* 表 示 可 能 的 索引 
值 ， 但 是 简单 起 见 ， 我 们 将 其 标记 为 1 到 JO. 


(2) 计算 加 权 平 均值 ， 将 其 作为 预测 值 : 
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K N I 
Dax ah ra Mk 
_ k=l l=1 
Pij 
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虽然 该 算法 比 其 他 CF 算法 简单 多 了 ， 但 正确 率 不 输 于 它们 ， 并 且 计 算 开 销 更 小 ， 还 易于 
实现 。 下 面 SlopeOne 类 的 实现 方式 ， 非 常 类 似 于 基于 商品 的 CF 方法 的 CF. itembased 25: 


In [34]: Flass SlopeOne(object): 
def _ init  (self,Umatrix): 
$calc item similarities matrix 
nitems = len(Umatrix[0]) 
self.difmatrix = np.zeros((nitems,nitems)) 
self.nratings = np.zeros((nitems,nitems)) 
def diffav n(x,y): 
xy 7 np.vstack((x, y)).T 
xy = xy[(xy[:,0]»0) & (xy[:,1]»0)] 
nxy = len(xy) 
if nxy == 0: 
#print ‘no common' 
return [1000.,0] 
return [float(sum(xy[:,0])-sum(xy[:,1]) )/nxy,nxy] 

















for i in xrange(nitems): 
for j in xrange(nitems): 
if j»-i:ftriangular matrix 
self.difmatrix[i,j],self.nratings[i,j] = diffav n(Umatrix[:,i],Umatrix[:,j]) 
else: 
self.difmatrix[i,j] = -self.difmatrix[j,i] 
self.nratings[i,j] = self.nratings[j,i] 


def GetKSimItemsperUser(self,r,K,u vec): 
items - np.argsort(self.difmatrix[r]) 
items = items[items!"r] 
ent=0 
neighitems = [] 
for i in items: 
if u vec[i]»0 and cnt<K: 
neighitems.append(i) 
ent+=1 
elif cnt==K: 
break 
return neighitems 


S 
^ 


CalcRating(self,r,u vec,neighitems): 
rating = 0. 
den = 0. 
for i in neighitems: 
if abs(self.difmatrix[r,i])!71000: 
rating += (self.difmatrix[r,i]*u vec[i])*self.nratings[r,i] 
den += self.nratings[r,i] 


if den--0: 
#print ‘no similar diff' 
return 0. 


rating = np.round(rating/den,0) 
if rating »5: 
return 5. 
elif rating «1.: 
return 1. 
return rating 


de 


"^ 


CalcRatings(self,u vec,K): 
fu rec = copy.copy(u vec) 
u rec - np.zeros(len(u vec)) 
for r in xrange(len(u vec)): 
if u_vec[r]==0: 
neighitems = self.GetKSimItemsperUser(r,K,u vec) 
#calc predicted rating 
u rec[r] = self.CalcRating(r,u vec,neighitems) 
return u rec 


唯一 的 区 别 在 于 矩阵: difmatrix 前 面 已 解释 过 , 该 算法 中 它 是 用 来 计算 商品 i 和 j 的 差 
值 d(ij) PAZ GetKSimltemsperUser 寻找 difmatrix 的 最 小 值 ， 以 确定 K 个 近邻。 两 件 商品 
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有 可 能 (虽然 看 似 不 可 能 ) 没有 人 打 过 分 ， 而 difmatrix 可 以 包含 没有 定义 的 值 ， 默 认 将 其 
设置 为 1000。 预 测 值 可 能 大 于 5 或 小 于 1， 机 到 该 情况 ， 必 须 分 别 将 其 设置 为 5 或 1。 


5.3.2 ”基于 模型 的 协同 过 滤 


该 类 方法 利用 效用 矩阵 生成 模型 ， 抽 取 用 户 的 打分 模式 。 包 含 各 种 模式 的 模型 返回 预 
测 值 ， 填 充 或 逼近 原始 矩阵 〈 和 天 阵 分 解 )。 人 们 研究 过 各 种 推荐 模型 ， 发 表 过 很 多 论文 。 我 
们 集中 讨论 和 矩阵 分 解 算法 BFAD (Singular Value Decomposition，SVD， 以 及 最 大 
期 望 算法 )、 交 替 最 小 二 乘 (Alternating Least Square, ALS), PEE TIE (Stochastic 
Gradient Descent, SGD) 和 非 负 和 矩阵 分 解 (Non-negative Matrix Factorization, NMF) 算法 。 
























































































































































1. 交替 最 小 二 乘 (ALS) 














这 是 分 解 矩 阵 尺 的 最 简单 方法 。 每 名 用 户 和 每 件 商 品 可 以 表示 到 天 维 的 特征 空间 : 
R=POQ'=R 


其 中 ，NxK 维 的 矩阵 PARES Tari ERE, MXK 维 的 矩阵 2 为 商品 在 特征 空 
间 的 映射 。 因 此 ， 这 个 问题 可 以 简化 为 最 小 化 正则 化 后 的 代价 函数 J: 


天 e A 
J=min} e; - mins M, 1 — > Pady +H 
P4 "n P4 "n f par] f 2 


其 中 ，4 为 正则 化 参数 ， 通 过 调整 学 习 到 的 参数 ， 保 证 向 量 p, 和 g7 的 量 级 不 至 于 过 
大 ,以 避免 过 拟 合 问题 。 甜 阵 元 素 Me; 的 值 取决 于 用 户 i 是否 为 商品 j 打 过 分 , 0, 
Mey 为 1， 否则 为 0。 对 于 每 个 用 户 向 量 p 和 商品 向 量 g)， 令 /的 导数 为 0， 得 到 以 下 两 


个 等 式 : 




































































pil +a) 






















































































-1 
Pi = (o McjQ + 1] Q! Mc;R; 


1 
A 
qj = (P Me, P + +1] P Me R; 





EH, RAMJI R, Me 向 量 的 ; 行 ，R 和 Me) 78 R« Me AEQ Ale SORE REE ME 


P、O， 上 面 两 个 等 式 ， 可 直接 用 最 小 二 乘法 CALS) "求解 。 下 面 这 个 函数 展示 了 如 何 用 
Python 实现 ALS 算法 : 

























































































CD least square algorithm， 也 称 作 最 小 平方 法 。 一 一 译 者 注 
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In [12]: def ALS(Umatrix, K, iterations*50, 1#0.001, tol=0.001): 


nrows = len(Umatrix) 
ncols = len(Umatrix[0]) 
P = np.random.rand(nrows,K) 
Q = np.random.rand(ncols,K) 
Qt = Q.T 
err e 0. 
Umatrix = Umatrix.astype(float) 
mask = Umatrix>0. 
mask[mask--True]-1 
mask[mask--False]-0 
mask = mask.astype(np.float64, copy=False) 
for it in xrange(iterations): 
for u, mask u in enumerate(mask): 
P[u] = np.linalg.solve(np.dot(Qt, np.dot(np.diag(mask u), Qt.T)) + 1*np.eye(K), 
np.dot(Qt, np.dot(np.diag(mask u), Umatrix[u].T))).T 
for i, mask i in enumerate(mask.T): 
Qt[:,i] = np.linalg.solve(np.dot(P.T, np.dot(np.diag(mask i), P)) + l*np.eye(K), 
np.dot(P.T, np.dot(np.diag(mask i), Umatrix[:,i]))) 
err-np.sum((mask*(Umatrix ~ np.dot(P, Qt)))**2) 
if err « tol: 
break 
return np.round(np.dot(P,Qt),0) 














矩阵 Mc 叫 作 mask, XŒ 1 表示 正则 化 参数 lambda, BVA 
库 的 linalg.solve 函数 求解 最 
分 解 (SVD)( 见 下 面 几 节 ) 精确 ， 



































乘 问题 。 该 方法 通常 
但 是 它 易于 实现 , 易于 用 并 行 方法 计算 ( 


gZ 





























2. 随机 梯度 下 降 (SGD) 


VATI IHE SIRT FREER A, D] 


ER, (BE P (NxK) THERE O (MxK) 分 别 为 用 户 、 商 品 在 天 维 


{E (representation ) 。 





(代价 函数 了 同 第 


最 小 化 问题 

















JAREE R 的 近似 : 





为 它 依赖 于 对 效 


R=PQ'=R 

















EE TE AA 


常 没有 随机 梯度 下 降 (SGD) MA 
因此 速度 较 快 )。 














每 个 近似 的 分 数 语 可 以 表示 为 ; 





we. 


用 ALS 算法 求解 正则 均 方 误 (regularized squared errors) e; 的 最 小 化 问题 
d): 











K 
pom Eva] des (Ip «e 
"og 1 














， 用 梯度 下 降 方法 求解 MA3 AA M EMRA): 
e? 
Pa = Py + A—— = Py + a (2e,q,; - Apa) 
ik 
: 
PP Te 2p, = Gig + a(2ed;, — A4) 


题 , TE UAI 
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为 0.001。 我 们 用 NumPy 


异 值 


空间 的 表 


Iul 
m 
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ZN 


FE qu > 























K 
F, a 为 学 习 速率 〈 见 第 3 335. e; -so 交 蔡 计算 前 面 两 个 等 式 〈 固 
k=l 


























ij 





Rpr ， 再 反对 来 进行 ) HEISE Ro SGD 比 SVD〈 下 一 节 讲 ) 更 易于 并 行 处 





JE (AER). SGD 算法 的 Python 实现 如 下 所 示 : 








In [11]: def SGD(Umatrix, K, iterations-100, alpha=0.00001, 1=0.001, tol-0.001): 


nrows = len(Umatrix) 
ncols = len(Umatrix[0]) 


P = hp.random. rand(nrows,K) 
Q = np.random.rand(ncols,K) 


Qt = Q.T 
cost=-1 


for it in xrange(iterations): 
for i in xrange(nrows): 
for j in xrange(ncols): 
if Umatrix[i][j] > 0: 
eij = Umatrix[i][j] -np.dot(P[i,:],0t[:,j]) 
for k in xrange(K): 


cost = 0 


for i in xrange(nrows): 
for j in xrange(ncols): 
if Umatrix[i][j]^0: 
cost += pow(Umatrix[i][j]-np.dot(P[i,:],0t[:,31);2) 
for k in xrange(K): 


P[i][k] += alpha*(2*eij*Ot[k][j]-1*P[i][k]) 
Qt[X][3] += alpha*(2*eij*P[i][k]-1*Ot[k][j]) 


cost += f10at(1/2.0)*(pow(P[i][k],2)*pow(Qt[X](31,2)) 


if cost < tol: 


break 


return np.round(np.dot(P,Qt),0) 








SGD žr 
数 为 1000， 收 敛 判 据 
m CRUS 0, ^2 5i ft. 




















几 个 默认 参数 ， 





3. 非 负 矩阵 分 解 (NMF) 





这 一 组 方法 同样 将 P(NxK) MERE O (MxK) 的 积 作 为 第 阵 R 的 分 解 〈 开 为 特征 空 





间 的 维 





学 习 速 率 o=0.0001， 正 则 化 参数 4=/=0.001， 最 大 友 代 次 
(convergence tolerance) tol=0.001。 同 样 ， 要 注意 的 是 ， 未 打分 的 商 
因此 ， 使 用 该 方法 ， 无 须 事先 填充 缺失 值 ( 插 值 )。 
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J 








E), (BER AME TGA AAR GU. AMAI SUI ME REUS : 








J= 


. | 
na min 
p,q 


p20,4202 





i 





2 
-È pat +(1 obi ef) i aA(|p;|-- a; 
=l 





参数 a 决定 使 用 哪 种 正则 化 方法 (0 为 平方 ，1 为 套 索 正 则 化 或 两 者 的 混合 )， 和 为 正 


则 化 参数 。 该 最 小 化 问题 有 几 种 解法 ， 比 如 投影 梯度 法 Cprojected gradient)、 坐 标 下 降 法 
(coordinate descent)、 非 负 约 





方法 的 


的 坐标 下 降 法 : 





束 最 小 














详细 讨论 超出 本 书 讲 








QD 原 书 误 写 为 “NFM”。 一 一 译 者 注 








fy E], 














二 乘法 (non-negativity constrained least squares). ix #6 
但 是 我 们 自己 编写 函数 时 ， 用 到 了 sklearn NMF" 实 现 
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In [13]: from sklearn.decomposition import NMF 
def NMF alg(Umatrix,K,inp-'none',1-0.001): 
R tmp = copy.copy(Umatrix) 
R tmp - R tmp.astype(float) 
fimputation 
if inp !- 'none': 
R tmp = imputation(inp,Umatrix) 

nmf = NMF(n components-K,alpha-1l) 
P - nmf.fit transform(R tmp) 
R tmp - np.dot(P,nmf.components ) 
return R tmp 














分 解 矩 阵 之 前 ， 可 对 矩阵 插值 。 函 数 fit transform 3& 





|] P 矩阵 ， 


而 O" 矩阵 存储 于 


nmf.components XI. o 的 默认 值 为 0〈 平 方正 则 化 )， 我 们 将 其 设置 为 1: alpha=1l. A 的 
这 类 方法 必然 是 预测 分 数 的 好 


默认 值 为 0.01: 1=0.01。 既 然 效 用 矩阵 元 素 为 正 值 (分数)，i 
方法 。 





4. 奇异 值 分 解 (SVD) 























作为 特征 降 维 方法 ， 第 2 章 已 讨论 过 该 算法 ， 我 们 将 矩阵 分 解 为 UL E. V GEZ BOR 
细节 ， 见 第 2 章 )， 用 它们 来 近似 表示 矩阵。 在 协同 过 滤 算 法 中 ， 我 们 月 
但 首先 要 用 插值 方法 ， 估 计 每 位 用 户 的 缺失 值 ， 最 常用 的 插值 方法 是 ， 













































































(或 列 ) 或 两 者 的 均值 〈 而 不 是 留 下 0 值 不 管 ) 蔡 代 缺失 值 。 












































除了 


H SVD IERE, 
取 效 用 和 矩阵 的 每 行 



































直接 月 


H SVD 算法 分 解 效 











用 和 矩阵， 还 可 以 用 最 大 期 望 算法 〈 第 2 章 )， 先 从 矩阵 有 尺 = 尺 着 手 ; 








(1) BKM: iH Ê = SVD(R) 
r. 如 果 用 户 打 过 分 数 
六 (打分 数据 缺失 ) 




















(2) 期 望 步 : 方 = 


























重复 以 上 两 步 ， 直 到 均 方 误 之 和 (x -AY 小 于 给 定 的 容忍 值 〈tolerance )。 该 算法 及 





简单 的 SVD 分 解 ， 代 码 如 下 : 





In [14]: from sklearn.decomposition import TruncatedSVD 
def SVD(Umatrix,K,inp-'none'): 
R tmp * copy.copy(Umatrix) 
R tmp = R tmp.astype(float) 
#imputation 
if inp l= ‘none 
R_tmp = ES ine? Umatrix) 


R tmp = R tmp-means 

svd = TruncatedSVD(n components*K, random state=4) 
Rk = svd.fit transform(R tsp) 

R tmp * svd.inverse transform(R k) 

R tmp = means^R tmp 


return np.round(R tmp,0) 





means = np.array([ R tmp[i][R tmp[i]»0].mean() for i in xrange(len(R tmp))]).reshape(-1,1) 
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R tmp = copy.copy(Umatrix) 
R tmp = R_tmp.astype( float) 
nrows = len(Umatrix) 
ncols = len(Umatrix[0]) 
fimputation 
if inp I= ‘none’: 
R tmp = imputation(inp,Umatrix) 
define svd 


for it a xrange(iterations): 
tep 


RI k = svd.fit_transform(R_tap) 
R tmp = E inverse LT k) 
#e-step and error evaluati 
err = 0 
for i in xrange(ni 
for j in iiet, 
if Umatrix[i][j]>0: 


R_tmp[i)(j] = Umatrix[i][j] 


if err < tol: 
print it,'toll reached!" 


break 
return np.round(R tzp,0) 


In [15]: def svo. EM(Umatrix,K,inpe'none',iterations-50,tole0.001): 


svd = TruncatedSVD(n_components=K, random states) 


err += pow(Umatrix[i][j]-R tmp[i][j],2) 

















我 们 用 的 是 skleam 库 实现 的 SVD 算法 ， 





并 实现 了 两 种 均值 插值 方法 O 

















算法 ， 其 他 默认 参数 











商品 得 分 的 均值 )， 虽然 我 们 默认 用 参数 值 none， 即 
TASHE (0.0001) ARATE AWA (100000. SVD 算法 (尤其 








j 户 打分 的 均值 和 












































j 户 打分 的 均值 , 因为 这 样 











去 了 





本 节 最 后 , 我 们 再 声明 一 点 ，SVD 分 解 还 可 月 
E URV) 比较 用 户 或 商品 ， 然 后 再 根据 原来 的 效用 入 











5.4 CBF A} 





期 望 算 法 ) 比 ALS ZEE, (HIEBSXOB ES. KEN 
做 效果 通常 更 好 (SVD JERE ECR, 


于 基于 记忆 的 CF 方法 , 在 降 维 


方法 从 描述 商品 的 数据 中 抽取 用 户 的 特征 





该 类 
二 进 制 字 段 ， 来 表明 | 
纪录 、 剧 情 、 HE. Rabi. 























no 


SE 

















4 





EKRA RURAL WER: 未知、 动作 、 
音乐 、 神 秘 、 浪 漫 、 科 幻 、 惊 悚 、 战 争 或 美国 西部 片 。 




















Ex 的 是 ， 





用 SVD NEDER 


d 0 值 作为 缺失 值 的 初始 值 。 最 大 期 望 SVD 





是 用 最 大 


阵 时 ， 减 
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4 加 上 用 户 打分 的 均值 





Js 


























后 的 空间 CR 


TO) 














o MovieLens 这 个 例子 ， 每 部 电影 都 有 


E 阵 给 出 分 数 (SVD 结合 k-NN 方法 )。 











组 G 











I 
E Pw. 





动画 、 儿 童 、 


喜剧 、 犯 








我 们 用 这 些 特征 〈 类 型 ) 来 刻画 





HER, 将 每 部 





电影 表示 为 G 维 
































m 





二 进 制 向 EXE j 包含 哪 种 类 型 ， 
存储 着 效 





FB: 


uM 
































向 量 中 代表 该 类 型 的 元 素 值 为 1， 
矩阵 dfout 的 DataFrame Xt 9 CW ZAIE — T), F 
并 将 其 置 于 DataFrame 对 象 dfout movies 之 中 : 




















看 代码 构造 二 进 上 











(电影 类 型 的 数量 ) 的 





否则 为 0。 给 定 
lí ftm, 

















In [ ]: #matrix movies's content 
movieslist = [int(m.split(';')[-1]) for m in dfout.columns[1:]] 
moviescats = ['unknown','Action', ‘Adventure’, 'Animation','ChildrenV's', 'Comedy' , ‘Crime’, 'Documentary', 
‘Drama’, ‘Fantasy’, ‘Film-Noir','Horror', ‘Musical’, Mystery 
"Romance', 'Sci-Fi','Thriller','War', 'Western') 
dfout movies = pd.DataFrame(columns=[ ‘movie id']+moviescats) 
startcatsindx = 5 
ent= (| 
for m in movieslist: 
dfout movies.loc[cnt] = [m]*df info.iloc[m-1][startcatsindx:].tolist() 
cnt +=1 
print dfout movies.head() 
dfout movies.to csv('data/movies content.csv',indexeNone) 
Té FARE A RIE ERES $1 件 ， 后 面 用 到 该 文件 。 
将 电影 内 容 和 矩阵 存储 到 movies content.csv X CBF 方法 会 用 到 该 文 








程度 。 











基于 内 容 进 行 推 


























1> 





} 
征 ， 生 成 用 户 




















该 方法 的 问题 是 ， 
的 。 该 方法 的 优点 在 于 ， 针 对 特定 用 / 
定 商品 打分 人 数 不 足 而 受 


5.4 CBF 方法 


















































的 推 













































































象 ， 预 测 每 位 / 


5.4.1 商品 特征 平均 得 分 方法 


为 G)。 有 具体 要 计算 了 


类 型 


我 们 用 一 个 Python 类 实现 ; 


In [16]: class CBF averageprofile(object): 














该 方法 确 











实 非 常 简单 ， 我 们 月 
征 前 面 讲 过 。 该 方法 的 











荐 的 系统 , 其 目标 是 生成 用 户 画 像 ， 用 相同 字段 表明 ) 
有 时 无 法 描述 商品 的 内 容 ， 因 此 在 电子 商务 环境 该 方法 并 不 总 是 可 行 
荐 ， 独 立 于 其 他 用 户 的 打分 情况 ， 因 
制 于 冷 启动 问题 。 我 们 将 讨论 两 种 推荐 方法 ， 从 中 找 出 最 佳 的 。 方法 
一 ， 计 算 每 位 用 户 每 种 类 型 电影 的 平均 分 数 ， 生 成 用 户 画 像 ， 月 
喜欢 的 电影 最 相似 的 电影 。 方 法 二 ， 
画像 特征 。 用 其 他 用 户 的 画 





余弦 相似 度 度量 
正则 化 线性 回归 模型 ,根据 月 























目标 是 为 每 位 | 


























g 的 


部 电 








其 中 ， 如 果 电影 上 包含 类 型 g， Tie 为 1， 








px Fi -HMg 


> 1 kg 
k=0 
否则 为 0。 











计算 向 量 矿 和 二 








进 制 向 量 m ;之 间 的 余弦 相似 度 ， 将 相似 度 最 
— 








IPs 
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喜欢 每 种 类 型 的 




















高 的 电影 推 





此 不 会 因为 特 











量 方法 ， 找 出 跟 
有 户 打分 数据 和 电影 特 
户 尚未 看 过 的 电影 分 数 。 














H MovieLens 例子 描述 电影 的 特征 来 解释 该 方法 ， 这 些 特 
户 i 生成 电影 类 型 喜好 向 量 y = (vss, 


F 均 分 志和 每 种 类 型 g，v, 的 计算 方法 是 ， 用 户 i OMD 所 看 过 的 包含 
L2 xD LM 


Visa) (长 度 


荐 给 用 户 i。 








. init (self,Movies,Movieslist): 
#calc user profiles: 
self.nfeatures = len(Movies[0]) 
self.Movieslist = Movieslist 
self.Movies = Movies 


GetRecMovies(self,u_vec,indxs=False): 
#generate user profile 
nmovies = len(u_vec) 
nfeatures = self.nfeatures 
mean u = u vec[u vec»0].mean() 
diff u = u vec-mean u 
features u = np.zeros(nfeatures).astype(float) 
ents = np.zeros(nfeatures) 
for m in xrange(nmovies): 
if u vec[m]»0:fu has rated m 
features u += self.Movies[m]*(diff u[m]) 
ents += self.Movies[m] 
#average: 
for m in xrange(nfeatures): 
if cnts[m]»0: 
features u[m] = features u[m]/float(cnts[m]) 


#calc sim: 
sims = np.zeros(nmovies) 
for m in xrange(nmovies): 
if u_vec[m]==0:4sim only for movies not yet rated by the user 
sims[m] = sim(features u,self.Movies[m]) 
#order movies 
order movies indxs - np.argsort(sims)[::-1] 
if indxs: 
return order movies indxs 
return self.Movieslist[order movies indxs] 
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构造 器 将 电影 名 称 存储 于 MoviesList 列表 ， 电 影 特 征 存储 于 Movies 向 量 ，GetRecMovies 
函数 生成 用 户 喜 欢 的 电影 类 型 向 量 w (用 这 一 节 的 公式 )， 也 就 是 代码 中 的 features u， 然 
后 返回 与 该 向 量 最 相似 的 电影 。 


5.4.8. 正则 化 线性 回归 方法 


该 方法 学 习 线 性 模型 的 参数 9 iE0,…,N-1，0, en? : 6,=1, 为 用 户 数 ，G 为 每 个 
商品 的 特征 数 《〈 电 影 类 型 数 )。 我 们 为 用 户 参数 0 (9,=1) 增加 截 距 项 (intercept value), 
同样 为 电影 向 量 mj 增 加 截 距 项 ，mjo=1， 因 此 m， ER 为 了 学 习 参 数 向 量 g;， 需 要 求解 


以 下 带 正则 项 的 最 小 化 问题 : 
































































































































其 中 ，Z 为 1， 表 示 用 户 i 为 这 部 电影 打 过 分 ， 否 则 j 为 0，4 为 正则 化 参数 〈 见 第 3 章 )。 
这 个 最 小 化 问题 可 以 用 梯度 下 降 法 求解 〈 见 第 3 章 )。 对 于 每 位 用 户 i: 





Ma 
© 0,-0,— ay. (8 m; = 1M ol; (k =0) 
j=0 
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M- 


* 2.286, zl (0; m, -nmal nat + AQ, (k » 0) 


< 
Il 
o 





我 们 分 别 为 电影 和 用 户 向 量 增加 了 一 截 距 项 ， 而 截 距 参数 (m0) 和 其 他 参数 的 学 习 ， 
需要 区 别 开 来 〈 因 为 截 距 不 存在 过 拟 合 的 可 能 性 ， 不 用 对 其 进行 正则 化 处 理 )。 学 习 到 参数 
6 之后， 对 于 任何 缺失 值 , ， 用 公式 =O7m, 求解 。 


该 方法 的 代码 实现 如 下 : 
























































In [35]: class CBF regression(object): 
def init  (self,Movies,Umatrix,alpha=0.01,1=0.0001,its=50,tol=0.001): 
#calc parameters: 
self.nfeatures = len(Movies[0])+l#intercept 
nusers = len(Umatrix) 
nmovies = len(Umatrix[0]) 
#add intercept col 
movies feats = np.ones((nmovies,self.nfeatures) ) 
movies feats[:,1:] = Movies 
self.movies feats - movies feats.astype(float) 


#set Umatrix as float 
self.Umatrix - Umatrix.astype(float) 
#initialize the matrix: 
Pmatrix = np.random.rand(nusers,self.nfeatures) 
Pmatrix[:,0]71. 
err = 0. 
cost = -1 
for it in xrange(its): 
print 'it:',it,' -- ',cost 
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"^ 





for u in xrange(nusers): 


cost = 0 
for u in xrange(nusers): 


if cost « tol: 
print 'err',cost 
break 

self.Pmatrix = Pmatrix 


CalcRatings(self,u vec): 

#find u vec 

s 0. 

u feats = np.zeros(len(self.Pmatrix[0])) 

#in case the user is not present in the utility matrix find the most similar 
for u in xrange(len(self.Umatrix)): 

#print self.Umatrix[u] 

tmps = sim(self.Umatrix[u],u vec) 

if tmps » s: 


if s == 1.: 

new vec = np.zeros(len(u vec)) 
for r in xrange(len(u vec)): 
if u vec[r]--0: 


return new vec 


for f in xrange(self.nfeatures): 
if f==0:#no regularization 
for m in xrange(nmovies): 
if self.Umatrix[u,m]»0: 
diff = np.dot(Pmatrix[u],self.movies feats[m])-self.Umatrix[u,m] 
Pmatrix[u,f] += -alpha*(diff*self.movies feats[m][f]) 
else: 
for m in xrange(nmovies): 
if self.Umatrix[u,m]»0: 
diff = np.dot(Pmatrix[u],self.movies feats[m])-self.Umatrix[u,m] 
Pmatrix[u,f] += -alpha*(diff*self.movies feats[m][f] *l*Pmatrix[u][f]) 


for m in xrange(nmovies): 
if self.Umatrix[u][m]»0: 
cost += 0.5*pow(Umatrix[u][m]-np.dot(Pmatrix[u],self.movies feats[m]),2) 
for f in xrange(1,self.nfeatures): 
cost += float(1/2.0)*(pow(Pmatrix[u][f],2)) 


s = tmps 
u_feats = self.Pmatrix[u] 


break 


new vec[r] = np.dot(u feats,self.movies feats[r]) 




















构造 器 CBF regression. 用 梯度 下 降 方法 寻找 参数 0 RE PÉJ Pmatrix), pk žk 


CalcRatings 从 效 月 





HA 











E 阵 R( 用 户 不 在 效用 矩阵 中 〉 找 出 最 相似 的 分 数 向 量 ， 然 后 利用 相应 














的 参数 向 量 预测 缺失 值 。 


5.5 用 关联 规则 学 习 ， 构 建 推荐 系统 

















虽然 很 多 商业 推荐 系统 往往 不 使 用 关联 规则 挖掘 ， 但 由 于 它 可 以 利用 历史 数据 ， 因 此 
我 们 应 该 了 解 该 方法 。 其 实 ， 我 们 可 以 用 它 解 决 多 种 实际 问题 。 该 方法 的 主要 思想 是 ， 统 
计 交 易 数据 库 7 中 商品 的 出 现 情况 ， 找 到 商品 之 间 的 关系 〈 例 如， 用 户 i 看 过 的 电影 或 购 
买 的 商品 , 可 以 看 作 是 一 条 交易 数据 )。 更 正式 地 讲 , 一 条 规则 可 以 是 {item1, item2}=>{item3} 
这 样 的 形式 ， 即 一 组 商品 {item1，item2} 暗 示 着 男 一 组 商品 {item3} 的 存在 。 每 条 X— Y UU] 
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j 以 下 两 个 定义 来 刻画 : 



























































。 支持 度 〈support): 给 定 一 组 商品 X, 其 支持 度 supp(2) 为 包含 了 的 交易 数据 占 总 交 
易 数 据 的 比例 。 
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支持 度 表示 一 条 规则 在 交易 数据 库 中 的 频率 ， 而 置信 度 表 示 站 出 现 的 情况 下 ,了 出 丽 





一 














电影 的 推荐 列表 ; 
果 。 对 于 如 何以 最 快 的 速度 找到 所 有 可 能 的 商品 台 
方法 : apriori 和 fp-growth 算法 〈 我 们 不 再 讨论 ， 因 为 我 们 要 找 的 规则 中 X. 工 都 只 





U Yysupp(X).. BREE conhX=>7 了 的 值 可 能 与 conhY=> 加 差别 较 大 。 

















SIE (confidence): 同时 包含 和 了 的 交易 数据 占 只 包含 的 比例 : conf(X=> Y)=supp(X 


jl 





ü 








. HAWW, SRI Sc Hae PE SG XE BAN is BPS ORFE E n, 

满足 条 件 的 规则 就 越 少 )， 而 置信 度 可 以 看 作 是 并 和 了 的 相似 度 度 量 方 法 。 回 到 电影 推荐 
系统 这 个 例子 ， 交 易 数 据 库 可 以 从 效用 矩阵 R 生成 : 从 每 位 用 户 喜 欢 的 电影 中 ， 寻 找 由 忒 
和 了 组 成 的 规则 ， 其 中 集合 和 和 了 各 只 包含 一 个 商品 〈 电 影 )。 我 们 用 矩阵 ass. matrix 来 组 
ZA HEU, FABER EES ICR ass matrixij 表示 规则 ij 的 置信 度 。 用 ass_matrix 乘 以 用 户 
的 打分 向 量 u vec, 就 能 得 到 向 该 ) o recitems = uvec ` assmatrix, 对 recitems 
排序 ， 优 先 推荐 recitems 值 大 的 电影 。 因 而 ， 该 方法 得 到 的 不 是 对 电影 打分 的 预测 ， 































































































一 个 商品 )。 
下 面 我 们 用 一 个 类 来 实现 关联 规则 推荐 : 














而 是 


关联 规则 方法 速度 快 ， 即 使 效用 矩阵 为 稀疏 矩阵 ， 也 能 取得 较 好 的 效 
HE, LISI XA Y, 文献 中 提 到 了 两 种 


包含 








In [36]: 


class AssociationRules(object): 
def init (self,Umatrix,Movieslist,min_support=0.1,min_confidence=0.1,likethreshold=3): 
self.min support - min support 
self.min confidence = min confidence 
self.Movieslist = Movieslist 
transform utility matrix to sets of liked items 
nitems = len(Umatrix[0]) 
transactions = [] 
for u in Umatrix: 
$ = [i for i in xrange(len(u)) if u[i]»likethreshold] 
if len(s)»0: 
transactions.append(s) 
find sets of 2 items 
flat = [item for sublist in transactions for item in sublist] 
inititems = map(frozenset,( [item] for item in frozenset(flat)]) 
set trans * map(set, transactions) 
sets init, self.dict sets support * self.filterSet(set trans, inititems) 
setlen = 2 
items tmp = self.combine lists(sets init, setlen) 
self.freq sets, sup tmp - self.filterSet(set trans, items tmp) 
self.dict sets support.update(sup tmp) 
self.ass matrix = np.zeros((nitems,nitems)) 
for freqset in self.freq sets: 
#print 'fregset',fregset 
list setitems = [frozenset([item]) for item in freqset] 
#print "freqSet", freqset, 'Hl1', list setitems 
self.calc confidence matrix(freqset, list setitems) 


def filterSet(self,set trans, likeditems): 
itemscnt = () 
for id in set trans: 
for item in likeditems: 
if item.issubset(id): 
itemscnt.setdefault(item, 0) 
itemscnt[item] += 1 
num_items = float(len(set_trans)) 
freq sets = [] 
dict sets = () 
for key in itemscnt: 
support = itemscnt[key] / num items 
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if support >= self.min_support: 
freq_sets.insert(0, key) 
dict_sets[key] = support 
return freq sets, dict sets 


def combine lists(self,freq sets, setlen): 
setitems list - [] 
nsets = len(freq sets) 
for i in range(nsets): 
for j in range(i * 1, nsets): 
setlistl = list(freg sets[i])[:setlen - 2] 
setlist2 = list(freqg sets[j])[:setlen - 2] 
if set(setlistl) == set(setlist2): 
setitems list.append(freq sets[i].union(freq sets[j])) 
return setitems list 


def calc confidence matrix(self,freqset, list setitems): 
for target in list setitems: 


if confidence >= self.min confidence: 


def GetRecItems(self,u vec,indxs-False): 

vec recs * np.dot(u vec,self.ass matrix) 

sortedweight = np.argsort(vec recs) 

seenindxs = [indx for indx in xrange(len(u vec)) if u vec[indx]»0] 

seenmovies = np.array(self.Movieslist)[seenindxs] 

#remove seen items 

recitems = np.array(self.Movieslist)[sortedweight] 

recitems = [m for m in recitems if m not in seenmovies] 

if indxs: 
vec recs[seenindxs]--1 
recsvec = np.argsort(vec recs)[::-1][np.argsort(vec recs)»0] 
return recsvec 

return recitems[::-1] 





confidence - self.dict sets support[freqset] / self.dict sets support[freqset - target] 


self.ass matrix[list(fregset - target)[0]][list(target)[0]] = confidence 




















类 构造 器 的 参数 有 效用 和 矩阵 Umatrix、 电影 名 称 列表 Movieslist. SIFRE RE min support ( 默 

















认为 0.1)、 置 信和 度 阔 值 min confidence (默认 为 0.1) 和 将 交易 数据 中 





电影 纳入 考虑 范围 的 最 低 

















分 数 likethreshold (默认 为 3)。 函 数 combine lists 寻找 所 有 可 能 的 规则 ， 而 filterSet 过 滤 规 则 ， 























找 出 满足 最 小 支持 度 闵 值 的 规则 。calc_confidence_matrix 用 满足 最 小 阔 





值 〈 和 否则 默认 为 0) 的 置 





信 度 填充 ass matrix FEM. GetRecltems 根据 用 户 的 分 数 u vec， 返 回电 影 推荐 列表 。 














5.6 对 数 似 然 比 推荐 方法 








对 数 似 然 比 (Log-Likelihood Ratio, LLR) 是 度量 事件 4、 不 太 可 能 是 独立 事件 ， 
是 共 现 几率 大 于 偶然 〈 比 一 个 事件 单独 发 生 更 加 频繁 ) 的 一 种 方法 。 换 言 之 ，LLR 表明 事 














=) 














件 4 和 B 共 现 的 频率 ， 比 正常 分 布 〈 两 个 事件 上 的 分 布 ) 所 能 预测 的 要 显著 。 


Ted Dunning ( http://tdunning.blogspot.it/2008/03/surprise-and-coincidence.html ) 讲 过 ,我 
们 可 以 借助 事件 4 M B 的 二 项 分 布 来 定义 LLR， 二 项 分 布 矩 阵 太 及 LLR 的 公式 为 : 




















表 5.1 
A Not A 





B k11 k12 





Not B k21 k22 








136 $536 推荐 系统 


7x 


A. 


注意 : Hk f ks ks ]) -H (Uy + ki + ka + ka) -H (lk 


LLR = 2N(H [ks ka ho J = H (ku kin bikes ]) ~ (Lis ess s 3) 





len(p) 














i=0 





中 , N=k, +h, +k, ks HG) Y, p,/ Nlog(p,/N) 为 度量 向 量 p 所 包含 信息 的 香 


ka + k + ky) 也 称 为 两 个 事 


件 变 量 4 M B 的 互信 息 (Mutual Information, MD, 它 度量 的 是 两 个 事件 的 发 生 是 如 何 彼此 相关 的 。 


这 种 检验 方法 也 叫 作 G2， 已 证实 它 在 检测 稀少 事件 (万 

















II 











HAR AEn HIT AUTOS CECIDIT P SCA HERA Do 











再 回 到 电影 推荐 的 例子 ， 事 件 4 和 B 对 应 的 是 用 户 喜 欢 或 不 喜欢 电影 4 和 Bo 3 
的 定义 是 ， 打 分 大 于 3 分 〈 反 之 ， 不 喜欢 )。 我 们 月 





欢 一 部 电影 ” 

















In [19]: 


class LogLikelihood(object): 


def 


deft 


def 


. init (self,Umatrix,Movieslist,likethresholde3): 
Self.Movieslist - Movieslist 

#calculate loglikelihood ratio for each pair 
self.nusers = len(Umatrix) 

self.Umatrix =Umatrix 

self.likethreshold = likethreshold 

self.likerange = range(self.likethreshold+1,5+1) 
self.dislikerange = range(l,self.likethreshold*1) 
self.loglikelihood ratio() 


calc k(self,a,b): 
tmpk = [[0 for j in range(2)] for i in range(2)] 
for ratings in self.Umatrix: 
if ratings[a] in self.likerange and ratings[b] in self.likerange: 
tmpk[0][0] += 1 
if ratings[a] in self.likerange and ratings[b] in self.dislikerange: 
tmpk[0][1] += 1 
if ratings[a] in self.dislikerange and ratings[b] in self.likerange: 
tmpk[1][0] += 1 
if ratings[a] in self.dislikerange and ratings[b] in self.dislikerange: 
tmpk(1][1] += 1 
return tmpk 


calc llr(self,k matrix): 
Hcols*Hrows=Htot=0.0 
if sum(k_matrix[0])+sum(k_matrix[1])==0: 
return 0 
invN = 1.0/(sum(k matrix[0])*sum(k matrix[1])) 
for i in range(0,2): 
if((k matrix[0][i]*k matrix[1][i])!90.0): 
Hcols += invN*(k matrix[0][i]*k matrix[1][i])*math.log((k matrix[0][i]*k matrix[1][i])*invN )#sum of row| 
if((k matrix[i][O]*k matrix[i][1])!70.0): 
Hrows += invN*(k matrix[i][0]*k matrix[i][1])*math.log((k matrix[i][0]*k matrix[i][1])*invN )#sum of col 
for j in range(0,2): 
if(k matrix[i][j]!90.0): 
Etot *-invN*k matrix[i][j]*math.log(invN*k matrix[i][j]) 
return 2.0*(Htot-Hcols-BHrows)/invN 


loglikelihood ratio(self): 
nitems = len(self.Movieslist) 
self.items llre pd.DataFrame(np.zeros((nitems,nitems))).astype( float) 
for i in xrange(nitems): 
for j in xrange(nitems): 
if(j>=i): 
tmpk=self.cale_k(i,j) 
self.items llr.ix[i,j] = self.calc llr(tmpk) 
else: 
self.items llr.ix[i,j] = self.items llr.iat[j,i] 


GetRecItems(self,u_vec, indxs=Palse): 
items weight = np.dot(u vec,self.items llr) 
sortedweight = np.argsort(items weight) 
seenindxs = [indx for indx in xrange(len(u vec)) if u vec[indx]»0] 
seenmovies = np.array(self.Movieslist)[seenindxs] 
#remove seen items 
recitems = np.array(self.Movieslist)(sortedweight) 
recitems = [m for m in recitems if m not in seenmovies] 
if indxs: 
items weight[seenindxs]s-1 
recsvec = np.argsort(items weight)[::-1][np.argsort(items weight)»0] 
return recsvec 
return recitems[::-1] 








是 文本 分 析 ) 的 共 现 方面 非 


C THE 


RÀ. 
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日 下 面 这 个 类 实现 该 算法 : 


Mk ds I BU OFA REE. FL AA Pn HU) A TF IB Fe FL FY BRI {EL likethreshold 


GBRGA S 3). pki loglikelihood ratio 计算 入 
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推荐 列表 〈 该 方法 不 预测 打分 数据 )。 


5.7 


混合 推荐 系统 





ERE &(cale. 区 和 相应 的 LLR (calc lir )， 为 每 一 对 
Het 181 j 生成 LLR Ñ. AZt GetRecltems 返回 用 户 《 该 用 户 的 打分 数据 为 u_ vec) 的 电影 


这 类 方法 为 了 达到 更 理想 的 效果 ， 在 推荐 引擎 中 结合 使 用 CBF 和 CF 方法 。 业 界 尝试 
过 多 种 混合 推荐 方法 ， 归 结 起 来 不 外 乎 以 下 几 种 : 






































加 权 : 对 CBF 和 CF 预测 得 到 的 分 数 ， 取 加 权 平 均值 。 

混合 : 分 别 用 CF 和 CBF 预测 ， 然 后 将 预测 结果 合并 为 一 个 列表 。 
切换 :根据 特定 的 规则 ， 选 择 使 用 CF 或 CBF 预测 方法 。 
特征 组 合 : 综合 考虑 CF 和 CBF 的 特征 ， 找 到 最 相似 的 用 户 或 商品 。 





























特征 扩充 〈Feature augmentation): 类 似 于 特征 组 合 ， 但 还 要 用 附加 特征 预测 分 数 ， 











然后 主推 荐 引擎 使 用 得 到 的 分 数 生 成 推荐 列表 。 例如 , 对 于 基于 内 容 的 模型 
分 的 电影 ， 内 容 增 强 型 协同 过 滤 CContent-Boosted Collaborative Filtering) 
其 打分 ， 然 后 再 用 协同 过 滤 方 法 确定 推荐 列表 。 



































IAT it 
学 习 为 


举 个 例子 ， 我 们 结合 基于 商品 特征 的 CBF 方法 和 基于 用 户 的 CF 方法 ， 实 现 两 种 混合 


的 特 
































的 平均 分 。 有 具体 实现 方法 见 下 面 这 


征 组 合 方法 。 S CF, FRIERE, IRER ERE A P 








In [37]: class Hybrid cbf cf(object): 
d 


ef _init (self,Movies,Movieslist,Umatrix): 
#calc user profiles: 
self.nfeatures = len(Movies[0]) 
self.Movieslist - Movieslist 
self.Movies = Movies.astype(float) 
self.Umatrix mfeats = np.zeros((len(Umatrix),len(Umatrix[0])*self.nfeatures)) 


means = np.array([ Umatrix[i][Umatrix[i]»0].mean() for i in xrange(len(Umatrix))]).reshape(-1,1) 


diffs = np.array([ [Umatrix[i][j]-means[i] if Umatrix[i][j]^0 else 0. 
for j in xrange(len(Umatrix(i])) ] for i in xrange(len(Umatrix))]) 

self.Umatrix mfeats[:,:len(Umatrix[0])] = Umatrix#diffs 
self.nmovies = len(Movies) 
#calc item features for each user 
for u in xrange(len(Umatrix)): 

u vec = Umatrix[u] 

self.Umatrix mfeats[u,len(Umatrix[0]):] = self.GetUserItemFeatures(u vec) 


def GetUserItemFeatures(self,u vec): 

mean u * u vec[u vec»0].mean() 

#diff_u = u vec-mean u 

features u * np.zeros(self.nfeatures).astype(float) 

cnts - np.zeros(self.nfeatures) 

for m in xrange(self.nmovies): 

if u vec[m]»0:£u has rated m 
features u += self.Movies[m]*u vec[m]£self.Movies[m]*(diff u[m]) 
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ents += self.Movies[m] 
#average: 
for m in xrange(self.nfeatures): 
if cnts[m]>0: 
features_u[m] = features u[m]/float(cnts[m]) 
return features u 


def CalcRating(u vec,r,neighs): 
rating * 0. 
den = 0. 
for j in xrange(len(neighs)): 
rating += neighs[j][-1]*float(neichs[4j][(r]-neighs[j][neighs[j]>0][:-1].mean()) 
den += abs(neighs[j][-1]) 
if den>0: 
rating = np.round(u vec[u vec»0].mean()*(rating/den),0) 
else: 
rating = np.round(u vec[u vec»0].mean(),0) 
if rating»5: 
return 5. 
elif rating<1: 
return 1. 
return rating 
#add similarity col 
nrows = len(self.Umatrix mfeats) 
ncols = len(self.Umatrix mfeats[0]) 
data sim = np.zeros((nrows,ncols*1)) 
data sim[:,:-1] * self.Umatrix mfeats 
u rec = np.zeros(len(u vec)) 
#calc similarities: 
mean = u vec[u vec»0].mean() 
u vec feats = u vecénp.array([u vec[i]-mean if u vec[i]^»0 else 0 for i in xrange(len(u vec))]) 
u vec feats = np.append(u vec feats,self.GetUserItemFeatures(u vec)) 


for u in xrange(nrows): 
if np.array equal(data sim[u,:-1],u vec)--False: #list(data_sim[u,:-1]) != list(u vec): 
data sim[u,ncols] = sim(data sim[u,:-1],u vec feats) 
else: 
data sim[u,ncols] = 0. 
#order by similarity: 
data sim[:,:-1] = self.Umatrix mfeats 
u rec * np.zeros(len(u vec)) 
#cale similarities: 
mean = u vec[u vec»0].mean() 
u vec feats = u vecfnp.array([u vec[i]-mean if u vec[i]»0 else 0 for i in xrange(len(u vec))]) 
u vec feats = np.append(u vec feats,self.GetUserItemFeatures(u vec)) 


for u in xrange(nrows): 
if np.array_equal(data_sim[u,:-1],u_vec)==False: slist(data sim[u,:-1]) != list(u vec): 
data sim[u,ncols] = sim(data sim[u,:-1],u vec feats) 
else: 
data sim[u,ncols] = 0. 
Forder by similarity: 
data sim -data sim[data sim[:,ncols].argsort()][::-1] 
#find the K users for each item not rated: 


for r in xrange(self.nmovies): 
if u_vec(r]==0: 
neighs = FindKNeighbours(r,data sim,K) 
fcalc the predicted ratind 
u rec[r] * CalcRating(u vec,r,neighs) 
return u rec 

















Fai sis ^E GT AUHER Umatrix_mfeats， 为 每 位 用 户 增 加 了 他 为 每 种 类 型 的 电影 打 
的 平均 分 这 个 特征 。 函 数 CalcRatings 使 用 皮尔 逊 相关 系数 度量 方法 ， 比 较 每 位 用 户 扩展 后 
的 特征 向 量 ， 找 出 K 个 近邻 。 方 法 二 ， 用 SVD 方法 扩展 效用 矩阵， 将 每 位 用 户 的 类 型 喜 
好 整合 进去 。 


In [22]: class Hybrid svd(object): 
def init (self,Movies,Movieslist,Umatrix,K,inp): 
#calc user profiles: 
self.nfeatures = len(Movies[0]) 
self.Movieslist = Movieslist 
self.Movies = Movies.astype( float) 
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R_tmp = copy.copy(Umatrix) 
R_tmp = R_tmp.astype(float) 
#imputation 


if inp != 'none': 

R tmp = imputation(inp,Umatrix) 
Umatrix mfeats * np.zeros((len(Umatrix),len(Umatrix[0])*self.nfeatures)) 
means = np.array([ Umatrix[i][Umatrix[i]»0].mean() for i in xrange(len(Umatrix))]).reshape(-1,1) 
diffs = np.array([ [float(Umatrix[i][j]-means[i]) 

if Umatrix[i][j]^O else float(R tmp[i][j]-means[i]) for j in xrange(len(Umatrix[i])) 
for i in xrange(len(Umatrix))]) 

Umatrix mfeats[:,:len(Umatrix[0])] = diffs#R tmp 
self.nmovies = len(Movies) 
#calc item features for each user 
for u in xrange(len(Umatrix)): 

u vec * Umatrix[u] 

Umatrix mfeats[u,len(Umatrix(0]):] = self.GetUserItemFeatures(u vec) 


#cale svd 

svd = TruncatedSVD(n components-K, random state=4) 
Rk  svd.fit transform(Umatrix mfeats) 

R tmp = means*svd.inverse transform(R k) 
self.matrix = np.round(R tmp[:,:5elf.nmovies],0) 


GetUserlItemFeatures(self,u vec): 
mean u = u vec[u vec»0].mean() 
diff u = u vec-mean u 
features u = np.zeros(self.nfeatures).astype(float) 
cnts = np.zeros(self.nfeatures) 
for m in xrange(self.nmovies): 
if u vec[m]»0:fu has rated m 
features u += self.Movies[m]*(diff u[m])4self.Movies[m]*u vec[m] 
cents += self.Movies[m] 
faverage: 
for m in xrange(self.nfeatures): 
if cnts[m]»0: 
features u[m] = features u[m]/float(cnts[m]) 
return features u 








SVD 方法 ， 每 位 用 户 所 打 的 分 数 减 去 了 该 用 户 的 平均 分 。 





去 了 他 打 的 平均 分 。 
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一 < 




















每 位 用 户 的 类 型 偏好 分 数 减 


我 们 讨论 了 与 当今 商业 应 用 联系 最 为 密切 的 方法 ， 现 在 我 们 再 来 学 习 推荐 系统 的 评估 方 



















































































去 。 评 估 可 在 线 下 (只 用 效用 和 矩阵 的 数据 ) 或 线 上 (用 效用 和 矩阵 和 网 站 用 户 实时 产生 的 数据 ) 


进行 。 第 7 章 将 结合 线 上 电影 推荐 系统 讲解 线 上 评估 方法 。 这 一 节 ， 我 们 采用 评估 推荐 系统 


常用 的 两 种 线 下 检验 方法 ， 来 评估 这 些 推荐 方法 的 怕 














E 能 :分数 的 均 方 根 误 差 (Root Mean 


Square Error, RMSE) 和 排序 的 正确 率 。 所 有 评估 方法 ， 均 采用 k- 折 交 义 检验 (第 3 章 )， 


23 f fil 


























FE 结果 的 客观 性 ， 我 们 采用 5 re de. HA FRAKASA 5 Jr: 




















In [42]: 


def cross_validation(df,k): 


val_num = int(len(df)/float(k)) 
print val_num 
df trains = [] 
df vals = [] 
for i in xrange(k): 
start val = (k-i-1)*val num 
end val = start val:val num 
df trains.append(pd.concat([df[:start val],df[end val:]])) 
df vals.append(df[start val:end val]) 


return df trains,df vals 
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JERE, k 为 折 数 。 验 订 


y: 




















DataFrame XJ £ df 存储 效 ) 
们 随机 隐藏 了 半数 电影 


e 





























LA 


的 分 数 ， 以 便 预 测 它们 的 实际 值 





户 的 分 数 向 量 u vec, 我 





o 








In [23]: import random 
def HideRandomRatings(u vec, ratipvals-0.5): 
u test = np.zeros(len(u vec)) 
u vals = np.zeros(len(u vec)) 
ent = 0 
nratings = len(u vec[(u vec»0]) 
for i in xrange(len(u vec)): 
if u vec[i]»0: 


u test[i]-u vec[i] 
else:#random choice to hide the rating: 
cnt +=1 
u vals[i]-u vec[i] 
return u test,u vals 





if bool(random.getrandbits(1)) or cnt>=int(nratings*ratiovals): 























u vals 存储 预测 值 , u_test 存储 用 于 测试 算法 的 实际 分 数 。 比 较 不 同 算法 不 同 度量 方法 之 前 ， 


我 们 加 载 效用 和 矩阵、 电影 内 容 锣 











E 阵 到 DataFrame 对 象 ， 将 数据 分 成 5 折 ， 使 用 交叉 检验 方法 








o 





#load data 

df = pd.read csv('data/utilitymatrix.csv') 

print df.head(4) 

df movies = pd.read csv('data/movies content.csv') 
movies - df movies.values[:,1:] 


In [24]: 


movieslist list(df.columns[1:]) 
#k-fold cv 5 folds 
nfolds - 5 


df trains,df vals = cross validation(df,nfolds) 





print 'check:::',len(df.colhmns[1:]), '--',len(df movies) 














验证 集 包 含 在 df vals H, 我 们 需要 用 本 节 的 HideRandomRatings 函数 隐藏 用 户 实 际 打 


的 分 数 。 





nmovies = 
CY 
tests vecs folds [1 
for i in xrange(nfolds): 
u vecs - df vals[i].values[:,1:] 
vtests - np.empty((0,nmovies),float) 
vvals np.empty((0,nmovies),float) 
for u vec in u vecs: 
u test,u vals - HideRandomRatings(u vec) 
vvals = np.vstack([vvals,u vals]) 
vtests - np.vstack([vtests,u test]) 
vals vecs folds.append(vvals) 
tests vecs folds.append(vtests) 


In [31]: len(df vals[0].values[:,1:][0]) 











入 
tests vecs folds 都 已 准备 就 绕 ， 接 下 来 我 们 训练 和 验 订 





ERE movies 、movieslist 列表 以 及 DataFrame 对 象 df trains. vals vecs folds 和 


FE 前 面 几 节 讨论 的 各 种 方法 。 我 们 首 








估 它 们 的 均 方 根 误差 (RMSE). 
5.8.1 “ 均 方 根 误差 (RMSE) 评估 


均 方 根 误差 检验 方法 只 适用 于 CF 和 线性 


sh 








回归 CBF, 











因为 只 有 这 些 算法 才 生 成 预测 分 数 。 








给 定 验 证 集 u_vals 的 每 个 分 数 方 ， 月 


其 中 , Ma AN u vals 向 量 中 打分 数据 的 数量 。 公式 中 的 平方 
因此 RMSE 最 佳 分 数 ) 较 低 的 方法 ， 它 们 的 误差 较 小 ， 且 分 散 于 对 所 有 分 数 的 预测 ， 而 不 是 





少数 分 数 误差 较 大 ， 而 不 像 平均 绝对 误差 MAE= 





基于 记忆 的 CF. 3ET] 











(7; i 


i, jeu vals 


N, 


val 








RMSE- 
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每 种 方法 计算 得 到 预测 分 数 方 ， 相 应 的 均 方 根 误差 为 : 


因子 严厉 惩罚 误差 较 大 的 情况 ， 











Th 





的 那样 。 





j 户 和 商品 的 协同 过 滤 方 法 ， 它 们 的 RMSE 计算 方法 见 下 面 代码 : 





In [43]: 


def SE(u_preds,u_vals): 
nratings = len(u_vals) 
se = 0. 
ent = 0 
for i in xrange(nratings): 
if u vals[i]»0: 


se *- (u vals[i]-u preds[i])*(u vals[i]-u preds[i]) 


cnt += 1| 
return se,cnt 








In [40]: 





err_itembased = 0. 
cnt itembased = 0 
err_userbased = 0. 
cnt userbased = 0 
err_slopeone = 0. 
cnt slopeone = 0 
err cbfcf = 0. 
cnt cbfcf = 0 
for i in xrange(nfolds): 
Umatrix = df trains[i].values[:,1:] 
cfitembased = CF_itembased(Umatrix) 
cfslopeone = SlopeOne(Umatrix) 
Cbfcf = Hybrid cbf cf(movies,movieslist,Umatrix) 
print 'fold:',i*1 
vec vals = vals vecs folds[i] 
vec tests = tests vecs folds[i] 
for j in xrange(len(vec vals)): 
u vals = vec vals[j] 
u test - vec tests[j] 
#cbfcf 
u_preds = cbfcf.CalcRatings(u_test,5) 
e,c = SE(u_preds,u_vals) 
err_cbfcf +=e 
cnt cbfcf +=c 
fcf userbased 
u preds - CF userbased(u test,5,Umatrix) 
e,c = SE(u preds,u vals) 
err userbased +=e 
cnt userbased +=c 
fcf itembased 
u preds * cfitembased.CalcRatings(u test,5) 
e,c = SE(u preds,u vals) 
err itembased +=e 
cnt itembased +=c 
#slope one 
u preds = cfslopeone.CalcRatings(u test,5) 
e,c = SE(u preds,u vals) 
err slopeone +=e 
cnt slopeone *-c 
rmse userbased = np.sgrt(err userbased/float(cnt userbased)) 
rmse itembased = np.sqrt(err_itembased/float(cnt_itembased) ) 
rmse slopeone = np.sqrt(err slopeone/float(cnt slopeone)) 
print 'user userbased rmse:',rmse userbased,'--',cnt userbased 
print 'user itembased rmse:',rmse itembased,'--',cnt itembased 
print 'slope one rmse:',rmse slopeone,'--',cnt slopeone 


rmse cbfcf - np.sqrt(err cbfcf/float(cnt cbfcf)) 
print 'cbfcf rmse:',rmse cbfcf,'---',cnt cbfcf 
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对 于 每 种 方法 ， 调 月 





基于 商品 的 CF 和 slope one 算法 使 用 5 个 近邻 ， 基 于 用 户 的 CF 使 ) 











H SE 函数 ， 计 算 每 一 折 的 误差 ， 然 后 得 到 所 有 折 的 误差 。 

















20 个 近邻 ， 各 方 








法 的 误差 见 表 5.2。 


表 5.2 
方法 


RMSE 


预测 分 数 的 数量 





基于 用 户 的 CF 


1.01 39972 





基于 商品 的 CF 


1.03 39972 





Slope one 


1.08 39972 








基于 用 


户 的 CF-CBF 


1.01 39972 














以 上 方法 ， 与 RMSE 类 似 ， 但 最 佳 方法 是 基于 商品 的 协同 过 滤 。 


对 于 基于 模型 的 方法 ， 我 们 不 再 隐藏 验证 集 分 数 ， 而 是 将 u_test 整合 到 效用 























训练 ， 然 后 用 下 面 代 码 计算 RMSE: 























In [63]: 





err svd - 0. 
cnt svd = 0 
err svd em = 0. 
cnt svd em = 0 
err als = 0. 
cnt als = 0 
err cbfreg = 0. 
cnt cbfreg = 0 
for i in xrange(nfolds): 
Umatrix = df trains[i].values[:,1:] 
print ‘fold:',i+1 
teststartindx = len(Umatrix) 
vals vecs = vals vecs folds[i] 
tests vecs = tests vecs folds[i] 
for k in xrange(len(vals vecs)): 
u vals = vals vecs[X] 
u test = tests vecs[k] 
#add test vector to utility matrix 
Umatrix = np.vstack([Umatrix,u test]) 


4svd em matrix = Hybrid svd(movies,movieslist,Umatrix,20, ‘useraverage').matrix#SVD_EM(Umatrix, 20, 'useraverage',l) 


svd matrix = SVD(Umatrix,20,'itemaverage') 
cbf reg * CBF regression(movies,Umatrix) 
$als umatrix = SGD(Umatrix,20,50)9ALS(Umatrix,20,50)9NMF alg(Umatrix,20, 'itemaverage',0.001) 
fevaluate errors 
for indx in xrange(len(vals vecs)): 
fe,c = SE(als umatrix[teststartindx*indx],vals vecs[indx]) 
err als += e 
fcnt als += C 
u preds = cbf reg.CalcRatings(Umatrix[teststartindx*indx]) 
e,c = SE(u preds,vals vecs[indx]) 
err cbfrog +=e 
cnt cbfreg *-c 


e,c = SE(svd matrix[teststartindx*indx],vals vecs[indx]) 
err svd *-e 

cnt svd +=c 

fe,c = SE(svd em matrix[teststartíindx*indx],vals vecs[indx]) 
ferr svd em *-e 

fcnt svd em *-c 


if 
if 
if 
if 


cnt svde*0: cnt svdel 
cnt svd eme-0: cnt svd emel 
cnt als*-0: cnt_als=1 
cnt cbfreg==0: cnt cbfreg*l 


rmse als * np.sqrt(err als/float(cnt als)) 
rmse svd = np.sqrt(err_svd/float(cnt_svd)) 
rmse svd em = np.sqrt(err svd em/float(cnt svd em)) 
rmse cbfreg * np.sqrt(err cbfreg/float(cnt cbfreg)) 


print 'svd rmse:',rmse svd,'--',cnt svd 

#print 'svd em rmsd:',rmse svd em,'--',cnt svd em 
#print ‘als rmse:',rmse als,'--',cnt als 

print 'cbfreg rmse:',rmse cbfreg,'--',cnt cbfreg 











上 述 代码 只 计算 了 CBF 回归 和 SVD 方法 
算法 的 误差 , 因为 所 需要 的 大 多 数 代码 都 以 注 
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的 RMSE， 读 者 可 以 利用 这 段 代码 计算 其 他 
释 的 形式 添加 到 上 述 代码 中 (最 大 期 望 SVD、 























~ 


























SGD. ALS 和 NMF)。 结 果 见 表 5.3 CK AEFI 


表 5.3 


空间 的 维度 ): 



























































































































































方法 RMSE 预测 分 数 的 数量 
CBF 线性 回归 (a= 0.01、1=0.0001、50 次 和 迭代) 1.09 39972 
SGD (K-20. 50 次 迭代 、a 0.00001. 170.001) 1.35 39972 
ALS (K-20. 50 次 迭代 、1=0.001) 2.58 39972 
SVD (插值 = 用 户 平均 分 数 、 玉 =20) 1.02 39972 
SVD EM 插值 = 商品 平均 分 数 、30 次 迭代 、 天 =20) 1.03 39972 
混合 SVD 插值 = 用 户 平均 分 数 、K =20) 1.01 39972 
NMF (K =20、 插 值 = 用 户 平均 分 数 ) 0.97 39972 
不 出 所 料 ，ALS 和 SGD 表现 最 差 .但 是 用 它们 讲解 推荐 系统 有 助 于 理解 ， 因 此 我 们 


对 它们 予以 讨论 (还 有 一 个 原因 ， 它们 的 实现 























没有 sklearn 库 所 实现 的 几 种 方法 那么 完 童 




















SAn 














其 他 方法 结果 相差 不 大 。 然 而 ， 需 注 





一 口 





5.8.2 ”分 类 效果 的 度量 方法 


打分 误差 RMSE 不 
业 环 境 是 不 会 使 用 的 。| 





- 公 


LH 


Sb ur 


SHEA 





E BH e 75 1E 

















FE 意 的 是 ， 混 


算法 只 好 一 点 点 。 还 要 注意 的 是 , 我 们 随机 选择 要 预测 的 


网 站 的 目标 是 向 用 户 推荐 相关 内 容 ， 而 不 管用 户 的 实际 打分 





合 方法 比 起 单独 的 SVD、 基 于 用 户 的 CF 
影 , 因此 多 次 比较 , 其 结果 可 能 不 同 。 








b 
已 





的 好 坏 ， 只 是 一 种 学 术 订 在 实际 商 


。 我 们 


FE 价 方 法 ， 

















用 准确 率 、 召 




















回 率 和 万 值 〈 见 第 3 章 ) 评估 
BAF 3 的 电影 。 我 们 计算 每 种 算法 返回 的 前 
表 ， 若 不 返回 则 取 50 个 最 高 的 预测 分 数 )。 









































前 











推荐 商品 的 相关 性 。 


预测 结 
50 部 电影 的 这 3 个 值 (如 


果 中 正确 的 是 指 分 
果 算 法 返回 电影 列 


ZR 














这 些 指 标的 计算 方式 如 下 : 








In [33]: 


als ndxs 
inna. like - re TUS xrange(Len(vec_ vals)) if v 
indxs dislike = [i for i in xrange(len(vec vals)) 
ent = len(indxs like)*len n s dislike) 





r no test vector' 
for i in xrange(len(vec recs)) i 


fconsider only the first slot of recs 
indxs rec - vec recs[ hot 
tp = len(set(indx zu» ntersection(set(indxs like 


fp = len(set(i UTER intersecti ion(set(indxs disl 
fn = TAEAE s. 1398) (set(indxs rec). inter secti 


sion = float(tp)/(tp*fp) 


if tp*fn»0: 
recall = float(tp)/(tp*fn) 

f1 = 0. 

if recall+precision >0: 
£1 = 2.*precision*recall/(precision*recall) 





return np.array([precision,recall,f1]),cnt 


def eset = cationMetr. pde vals,vec recs,likethreshold-3,shortlist-50,ratingsval-False,vec test-None): 


ec vals[i]»lik eee 
if vec vals[i]c-likethreshold and vec vals[i]»0] 


f vec recs[i]»likethreshold and vec test[i]«1][:shortlist] 


n 
ike))) 
on(set(indxs like)))) 








144 1$ 53k 推荐 系统 


上 述 代码 ,布尔 型 变量 ratingsval 表示 推荐 方法 返回 的 是 分 数 还 是 

















数 ClassificationMetrics i 





计 





所 有 方法 的 RMSE HË 


























列 在 这 里 (你 可 以 练习 自 
KK 为 特征 空间 的 维度 ): 











己 编写 )。 表 5.4 E 








了 各 种 方 ; 


*H 



































EIJK. RAIH K 
EF 计算 各 指标 ,计算 各 指标 的 代码 没有 














的 3 个 指标 (neighs 为 近邻 数 、 


YA 






































































































































d 54 
方法 准确 率 召回 率 n 预测 分 数 的 数量 
基于 用 户 的 CF (neighs =20) 0.6 0.18 0.26 39786 
基于 用 户 的 CBFCF (neighs =20) 0.6 0.18 0.26 39786 
混合 SVD ( 玉 =20、 播 值 = 用 户 平 均 分 数 ) 0.54 0.12 0.18 39786 
基于 商品 的 CF (neighs =5) 0.57 0.15 0.22 39786 
Slope one ( neighs =5) 0.57 0.17 0.24 39,786 
SVD EM ( K 220. 30 次 迭代 、 揪 值 = 用 户 平均 分 数 ) | 0.58 0.16 0.24 39786 
SVD (KK =20、 插 值 = 商品 平均 分 数 ) 0.53 0.12 0.18 39786 
CBF 回归 (a= 0.01、1=0.0001、50 次 迭代 ) 0.54 0.13 0.2 39786 
SGD (K=20、a=0.00001、1=0.001) 0.52 0.12 0.18 39786 
ALS (K=20、4=0.001、50 次 迭代 ) 0.57 0.15 0.23 39,786 
CBF 平均 0.56 0.12 0.19 39786 
LLR 0.63 0.3 0.39 39786 
NMF (KK=20、4 =0.001、 插 值 方法 为 ssss ) 0.53 0.13 0.19 39786 
关联 规则 0.68 0.31 0.4 39786 























由 表 5.4 可 见 ， 最 佳 
CF MÈH 























5.9 


小 结 














Ete ETE 

















PRB. FEM, mj 























每 次 是 随机 选择 























本 章 讨 论 了 最 常 


15541 



































种 不 同 的 数据 《 




















法 。 我 们 查询 相关 文献 时 ， 可 外 
j 户 性 别 、 和 人口 统计 学 特征 、 观 点 、 地 理 


用 多 





pA 








在 第 7 章 中 ， 我 们 交 
章 一 章 的 篇 幅 来 介 














已 人 
ba 




















不 同 的 数据 。 





本 章 i 
i 绍 搭建 Web 应 用 所 使 











寸 论 的 方法 实现 一 个 Web f 
的 Django 框架 。 

































































闫 规则 ，LLR、 基 于 用 户 的 混合 CBFCF、 基 于 用 户 的 
电影 进行 预测 ， 预 测 结果 也 会 有 所 不 同 。 








荐 系统 方法 : 协同 过 滤 、 基 于 内 容 的 过 滤 和 两 种 简单 的 混 
遇 到 模 态 推荐 系统 (modal recommendation )， 它 




































































合算 

已 是 将 多 

位 置 、 设 备 等 ) 整合 到 算法 之 中 。 
荐 系统 。 在 这 之 前 ， 我 们 先 用 第 6 





第 6 章 


开始 Django 之 旅 


























开源 Web 框架 Django 简单 易 用 ,稳定 性 和 灵活 性 高 , 因此 被 广泛 应 
充分 利用 了 Python 拥有 丰富 的 库 这 一 优势 )。 



































于 商业 环境 〈 它 





我 们 可 以 用 Web 应 用 来 管理 和 分 析 数 据 , 开发 Web 应 用 要 用 到 Web 框架 的 相关 功能 ， 

























































































本 章 重 点 讲解 Django 框架 的 这 些 功能 。 此 外 ， 我 们 还 会 解释 搭建 完整 的 Web 应 用 包括 哪 
些 主要 环节 ， 但 更 多 细节 和 信息 限于 篇 幅 ， 不 再 赣 述 ， 请 自行 查阅 官方 文档 








https://docs.djangoproject.com 或 其 他 资料 。 我 们 将 介绍 Web 服务 器 应 用 的 主要 概念 (配置 、 
模型 和 命令 )、HTML 和 shell 的 基础 知识 、REST 框架 接口 的 主要 概念 及 在 Django 中 它们 
































是 如 何 实现 的 (serializer、REST 调用 和 swagger)。 我 们 会 简要 介绍 如 何 用 
































HTTP GET, POST 


方法 在 因特网 上 传输 数据 ， 还 会 讲解 Django 的 安装 方法 以 及 如 何 用 它 搭建 Web 服务 器 。 





6.1 HTTP 一 一 GET 和 POST 方法 的 基础 


超 文本 传输 协议 (Hypertext Transfer Protocol, HTTP) 实现 了 客户 端 ( 
和 服务 器 〈 我 们 的 应 用 ) 之 间 的 交互 。 给 定 网 页 的 URL 地 址 ， 客 户 端 使 有 























比如 Web 浏览 器 ) 
H GET 方法 向 服务 





器 查询 数据 ， 碍 询 词 在 URL 中 是 以 参数 形式 指定 的 。 若 用 curl 命令 来 解释 ， 如 下 所 示 : 














curl -X GET url path?namel-valuel&name2-value2 











URL? 号 符号 后 面 的 键 值 对 ， 指 定 的 是 要 查询 的 数据 ， 多 项 数据 之 间 用 久 符 号 分 隔 。 
客户 端 将 数据 传送 给 服务 器 的 方法 叫 作 POST。 POST 方法 将 被 传输 的 数据 放 到 请 求 的 












































body 部 分 : 


curl -X POST -d @datafile.txt url path 
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现在 ， 我 们 开始 讨论 如 何 用 Django 搭建 Web 服务 器 和 Web 应 用 。 
6.1.1 Django 的 安装 和 服务 器 的 搭建 


在 终端 输入 以 下 命令 ， 安 装 Django Fe: 














sudo pip instal django 


















































该 命令 应 该 安装 的 是 1.7 或 以 上 版 本 的 Django( 作 者 用 的 是 1.7 版 本 )。 新 建 Web MH, 
请 用 以 下 命令 : 





























django-admin startproject test_server 





上 述 命令 生成 test_app" 新 文件 夹 ， 该 文件 夹 的 文件 目录 树 如 下 : 


-一 一 test server 


上 一 一 manage.py 


-一 一 test server 
L— init .py 
上 一 settings.py 


上 一 urls.py 


L—— wsgi.py 


KF, 


TT 











test server 文件 夹 中 有 manage.py 文件 ， 开 发 人 员 可 用 它 执 行 多 种 操作 。 该 文 从 
还 有 一 个 同名 的 子 文件 夹 test_server， 它 里 面 有 以 下 文件 : 

e settings.py: 存储 服务 器 的 所 有 参数 设置 ; 

e urls.py: 汇总 Web 应 用 的 所 有 URL 路 径 及 对 应 的 函数 名 ， 这 些 函 数位 于 views.py 

文件 中 ， 其 作用 是 演 染 模板 ， 生 成 URL 所 指向 的 网 页 

e wsgi.py: 与 Web 应 用 进行 服务 器 通信 的 模块 ; 

e init py: 将 每 个 文件 夹 定义 为 一 个 包 ， 以 便 从 包 内 导入 模块 。 

输入 以 下 命令 ， 在 我 们 本 地 的 机 器 上 ， 访 问 http://127.0.0.1:8080/， 可 看 到 Django 的 
欢迎 页 CWelcome to Django): 2 







































































python manage.py runserver 8080 











CD 应 为 test server. 译 者 注 
C 用 到 manage.py 的 命令 ， 需 到 manage.py 所 在 的 









































录 下 执行 ， 请 到 命令 行 工具 中 切换 到 该 目录 。 译 者 注 
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kh, 8080 为 服务 器 开启 的 端口 (如 不 指定 ， 默 认 开 启 8000 端口 )。 现 在 服务 器 已 经 
就 绪 ， 我 们 可 以 用 如 下 命令 创建 Web 应 用 ， 想 创建 多 少 就 能 创建 多 少 。 














N 











python manage.py startapp nameapp 











上 述 命 令 在 test_app" 文件 夹 的 根 目录 下 ， 新 建 一 个 文件 夹 nameapp: 





上 一 一 manage. py 
LI—— nameapp 

| L— init .py 
| 上 一 admin.py 

| |—— migrations 
| | init .py 
| 上 一 一 models.Py 

| 上 一 一 tests .PY 

| 


L—— views.py 

上 -一 一 test server 
| init .py 
上 -一 一 settings.py 
上 一 一 urls.Py 


L—— wsgi.py 














我 们 先 解释 最 重要 的 参数 配置 ， 之 后 再 讨论 该 文件 夹 中 的 内 容 及 其 功能 。 请 注意 ， 
Django 1.9 版 本 ，nameapp 文件 夹 包含 apps.py 文件 ， 它 改 用 apps.py 文件 配置 nameapp 应 
]. PEH settings.py 文件 。 


6.1.2 配置 
settings.py 文件 存储 Django 服务 器 运行 所 需 的 全 部 配置 。 需 要 设置 的 、 最 重要 的 参数 


如 下 所 示 。 
COD 除了 默认 安装 的 、 网 站 管理 所 需 的 一 般 性 Django 应 用 , 我 们 还 要 安装 REST 框架 : 

























































































INSTALLED APPS = ( 


'rest framework', 
'rest framework swagger', 
'nameapp', 


) 








CD 应 为 test server. 译 者 注 





148 第 6 章 开始 Django 之 旅 








安装 了 REST 框架 , Django 应 用 (例子 中 的 nameapp) 就 可 以 用 REST API 进行 通信 , REST 
Framework Swagger 是 一 种 管理 REST API 的 Web 交互 接口 。 后 续 章节 会 讨论 这 些 功 能 。 还 要 
注意 ， 我 们 创建 的 每 一 种 应 用 (例子 中 的 nameapp〉 都 要 添加 到 INSTALLED APPS 字段 中 。 

(2) Diango 支持 用 多 种 后 端 数 据 库 (MySQL、Oracle 和 PostgreSQL 等 ) 存储 数据 。 
该 例 使 用 SQLite3 (默认 选项 ):; 






















































































DATABASES = { 














'default': { 
'ENGINE': 'django.db.backends.sqlite3', 
'NAME': 'mydatabase', 








} 
} 























网 页 用 HTML 编码 实现 ， 因 此 需要 专门 准备 一 个 文件 夹 ， 存 储 HTML 代码 。 我 们 习 
惯用 templates 文件 夹 存储 网 页 布局 文件 : 

















TEMPLATE DIRS = ( 
os.path.join(BASE DIR, 'templates'), 














) 





























(3) 修饰 网 站 的 CSS 样式 表 和 JavaScript 代码 通常 单独 存储 到 static 文件 夹 , 将 它 放 到 
test server 文件 夹 中 。 要 获取 该 文件 夹 下 的 文件 ， 需 要 进行 如 下 配置 : 






























































MEDIA ROOT = os.path.join(BASE DIR, 'static') 

STATIC_URL = '/static/' 

MEDIA URL = '' 

STATIC ROOT = '' 

STATICFILES DIRS = ( os.path.join(BASE DIR, "static"), ) 





(4) 网 站 的 URL 设置 ， 需 做 以 下 配置 ，URL 将 从 该 文件 中 获取 (该 例 中 的 test_ 
server/urls.py 文件 ): 








ROOT URLCONF = 'test_server.urls' 








(5) 我 们 可 以 新 建 一 文件 ， 存 储 为 解决 bug 而 输出 的 语句 ， 放 到 这 个 文件 中 。 我 们 使 
FA logging 库 ， 配 置 方式 如 下 : 








LOGGING = { 
'version': 1, 


'disable existing loggers': True, 


(flu, logging.debug('write something). 


个 简单 的 邮件 地 址 短 应 用 。 按 照 前 面 讲 的 方法 ， 新 建 一 个 应 用 : 





文人 
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'formatters': { 
'standard': { 
'format': 'S(asctime)s $(levelname)s %(name)s 
$ (message)s' 


hy 





hy 
'handlers': { 
'default': { 
'level':'DEBUG', 





'class':'logging.handlers.RotatingFileHandler', 
'filename': 'test_server.log', 

'maxBytes': 1024*1024*5, 4 5 MB 

'backupCount': 5, 

'formatter':'standard', 





hy 
), 
'loggers': { 
"id 
'handlers': ['default'], 
'level': 'DEBUG', 


'propagate': True 



































做 好 上 述 配置 ， 我 们 用 logging 库 定 义 的 所 有 输出 语句 ， 将 存储 到 test server.log 文件 
































EZE, settings.py 里 所 有 重要 的 项 ,， 均 已 配置 完毕 。 接 下 来 , 我 们 可 以 集中 精力 开发 一 























python manage.py startapp addresesapp 






































接着 ， 在 服务 器 Caddressapp) 文件 夹 根 目录 下 的 test_server 文件 夹 中 ， 新 建 页 面 模板 


oL 











FX templates 和 静态 内 容 文 件 夹 static: 

















}——. addresesapp 
| L— init .py 
| |—— admin. py 

| |— migrations 
| 上 一 一 models .py 

| 上 六 一 tests. py 

| 


L—— views.py 


1 


6. 2 
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上 一 manage. py 
L——- test server 
L— init .py 
L— init .pyc 
|— settings.py 
FE settings.pyc 
上 一 一 static 

上 一 templates 

上 一 urls.py 


L—— wsgi.py 





VER, Æ settings.py 文件 INSTALLED APPS 一 项 下 增加 addressesapp， 方 法 跟 之 前 添 
加 nameapp 相同 。 下 一 节 ， 我 们 讲 怎 么 实现 地 址 筹 的 主要 功能 。 所 有 代码 均 已 放 到 作者 的 
GitHub 仓库 chapter 6 文件 夹 Chttps://github.com/ai2010/machine learning for the web/tree/ 


master/chapter_6). 
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创建 存储 邮件 地 址 的 Web 应用， 我们 不 仅 要 建 数据 表 存 储 数据 ， 还 要 编写 网 页 ， 支 持 
用 户 新 增 、 删 除 和 查看 地 址 夭 。 我 们 甚至 还 想 将 地 址 憩 转换 为 电子 表格 或 通过 因特网 将 数 


























4 





四 发 送 给 其 他 应 用 。 所 有 这 些 操 作 ，Dijango 均 提 供 








APIREST 框架 )。 我 们 先 来 讨论 数据 的 存储 方式 。 
6.2.1 model 





创建 电子 邮件 地 址 短 ， 我 们 需要 将 每 位 联系 人 的 名 字 和 邮件 地 址 存储 到 数据 表 中 。 在 








TH 


日 应 的 功能 (model. view, admin 和 





Django 中 ， 数 据 表 叫 作 model， 它 是 在 models.py 中 定义 的 : 





from django.db import models 


from django.utils.translation import ugettext_lazy as _ 


class Person (models .Model) : 


name = models.CharField(_('Name'), max_length=255, unique=True) 


mail = models.EmailField(max_length=255, blank=True) 


#display name on admin panel 
def unicode (self): 
return self.name 








在 Django 中 , 数据 表 的 列 对 应 model 的 字段 ， model 的 字段 支持 多 种 数据 类 型 : 整 型 、 
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字符 型 等 Django 自动 为 每 个 新 添加 的 对 象 赋予 一 个 自 增 的 ID 字段 。 上 面 代 码 , 定义 name 
字段 时 用 到 的 unique 选项 ， 表 示 该 model 不 允许 联系 人 名 称 重复 ，blank 表示 是 否 允 许 该 
字段 为 空 ， 即 用 户 是 否 可 以 不 填 该 项 。_unicode “函数 可 有 可 无 ， 它 的 作用 是 将 每 个 联系 
人 对 象 表示 为 字符 串 形 式 〈 我 们 用 联系 人 名 称 表示 一 个 对 象 )。 


创建 model 之 后 ， 我 们 需要 在 SQLite 数据 库 将 model 表示 的 数据 结构 建立 起 来 : 






















































































python manage.py makemigrations 
python manage.py migrate 








makemigrations 将 模型 的 变动 添加 到 迁移 文件 (addressesapp 文件 夹 下 的 migrations XX 
件 夹 )，migrate 将 变动 应 用 于 数据 库 模 式 Cdatabase schema )。 我 们 这 个 例子 ， 同 一 个 网 站 
有 多 个 应 用 , 因此 , 实现 迁移 的 命令 应 该 加 上 应 用 的 名 称 : python manage.py makemigrations 


‘appname'. 


6.22 HTML 网 页 背后 的 URL 和 view 



















































































我 们 已 知道 怎么 存储 数据 ， 我 们 还 需要 用 网 页 记录 联系 方式 ， 并 在 男 一 个 页 面 展 示 所 
联系 方式 。 下 一 节 ， 我 们 简要 介绍 HTML 页 面 的 主要 特性 。 
































HTML 页 面 
本 节 讲 解 的 所 有 代码 都 位 于 test server 文件 夹 下 的 模板 文件 夹 (templates) 中。 


























地 址 敌 应 用 的 主页 ， 人 允许 用 户 记 录 一 条 新 的 联系 方式 ， 主 页 见 图 6.1: 


Resources Home 
































图 6.1 


如 图 6.1 所 示 ， 网 页 的 主体 部 分 ， 有 两 个 等 待 用 户 输入 的 输入 框 : 联系 人 名 称 和 邮件 地 址 。 
单 击 Add 按钮 ， 这 两 项 内 容 将 被 添加 到 数据 库 。 该 页 面 的 HIML 模板 文件 home.html 如 下 所 示 : 
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($ extends "addressesapp/base.html" 3%} 
($ block content 5%} 
<form action="" method-"POST"» 
($ csrf token 5%} 
<h2 align = Center>Add person to address book </h2> 
<p> <br><br></p> 
<p align = Center><input type="search" class="span3" 
placeholder="person" name="name" id="search" 
autofocus /> </p> 
<p align = Center><input type="search" class="span3" 
placeholder="email" name-"email" id="search" 
autofocus /> </p> 
<p align = Center><button type="Submit" class="btn 
btn-primary btn-large pull-center">Add 
&raquo; </button></p> 
</form> 
($ endblock content %} 
我 们 用 POST 方法 ， 将 两 个 段落 域 (<p>……</p>) 收集 到 的 数据 提交 到 服务 器 ， 提 交 
事件 是 由 Add 按钮 (&raquo: 在 文本 后 面 添加 小 箭头 图 标 ) 激 活 的 。 网 页 的 标题 Add person 
to address book〔 新 增 联系 人 到 地 址 籍 ， 用 第 二 级 标题 泻 染 ‘<h2>……</h2>)。 注 意 添加 



































csrf token 标签 ， 可 启用 跨 站 请 求 伪造 攻击 保护 (更 多 内 容 请 见 https://www.squarefree.com/ 
securitytips/web-developers.html#CSRF )。 





网 页 的 样式 (CSS 和 JavaScript 文件 ) 以 及 页 面 底部 、 头 部 导航 栏 (Home、Emails 











Book 和 Find 按钮 ) 是 在 base.html 文件 〈 见 templates 文件 夹 ) 中 定义 的 。Find 功能 


如 下 


URL 








表单 实现 : 


<form class="navbar-search pull-left" action="{% url 'get_contacts' 
$)" method="GET"> 

($ csrf token 3%} 

<div style="overflow: hidden; padding-right: .5em;"> 





<input type="text" name="term" style="width: 70%;" /> 
<input type="submit" name="search" value="Find" 
size="30" style="float: right" /> 
</div> 
</form> 





























表单 中 用 div 标签 定义 文本 域 ，Find 按钮 激活 GET 方法 ， 请 求 一 个 URL， 服 务 器 将 
交 给 urls.py 文件 里 定义 的 get contacts 函数 处 理 〈 见 下 节 )。 


另 一 个 网 页 是 展示 地 址 筹 的 ， 如 图 6.2 所 示 。 












































6.2 编写 应 用 一 一 Django x € 


| 


name: ss email: 





ae 


name: www 1 email: aq 





Email address book 
[ABCDEFGHIJKLMNOPQRSTUVWXYZ |Index] 


leto 


name: Andrea Isoni email: ccc delete 


Gelete 


name: addd-ww email: www delete 














图 6.2 








$ extends "addressesapp/base.html" %} 

$ block content %} 

<h2 align = Center>Email address book</h2> 
<P align=Center>[ 

$ for letter in alphabet %} 

which is given by the book.html file: 


9. 


$ extends "addressesapp/base.html" %} 





$ block content %} 
<h2 align = Center>Email address book</h2> 
<P align=Center>[ 


9. 


$ for letter in alphabet %} 





a» 
% endfor 5%} 
<a href="addressesapp/book.html"> Index </a> ] 


<section id="gridSystem"> 





i o 
$ for contact in contacts %}° 


<div class="row show-grid"> 


</P> 


<p align = Center><strong> name: </strong>{{ contact.name }} 
<strong>email:</strong> {{ contact.mail ))&nbsp&nbsp&nbsp&nbsp 
<a class-"right" href="{% url 'delete person' contact. 


Sy" > delete </a> 
</p> 

</div> 

{5 endfor %} 

</section> 


($ endblock content %} 





CD 从 前 面 “whichis qivew” 到 该 行 应 删 书 ， 原 书 此 处 有 误 。 可 参考 作者 在 Github 上 





Z^ 1 





zu 


的 代码 。 一 一 译 者 注 


name 





«a href="{% url 'addressesbook' %}?letter={{letter}}" > {{letter}} </ 
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再 次 提醒 ,上述 代 码 用 base.html 演 染 头 部 导航 栏 、 页 面 底部 和 样式 。 标题 Email address 
book 用 二 级 标题 泻 染 ， 随 后 for 循环 {% for letter in alphabet %}, WW) 26 个 英文 字母 ， 我 
们 用 它 来 实现 只 显示 姓名 以 某 个 字母 开头 的 联系 人 信息 。 有 具体 实现 方法 是 : 将 要 查询 的 字 
EE {letter } MENA AHL URL 之 中 进行 查询 。 下 面 的 代码 ， 遍 历 联 系 人 列表 {% for 
contact in contacts 9%} ， 将 列表 泻 染 到 页 面 : 将 每 条 联系 人 信息 的 姓名 、 邮 件 地 址 和 按钮 放 
到 一 个 段落 标记 中 ， 按 钮 的 作用 是 从 数据 库 删 除 联 系 人 信息 的 。 我 们 接 下 来 讨论 网 页 各 事 
件 的 实现 添加、 查找 或 删除 联系 人 ， 展 示 地 址 敌 )。 


6.2.3 URL 声明 和 view 
















































































2 
















































































我 们 现在 讲解 urls.py 和 views.py 这 两 个 文件 是 怎样 与 每 个 网 页 的 HTML 代码 一 道 工 
作 ， 实 现 我 们 想 要 的 功能 的 。 

由 前 面 内 容 可 知 地 址 夭 应 用 的 两 个 主要 网 页 home 和 address book 各 有 一 个 URL， 在 
Django 中 这 两 个 URL 是 在 urls.py 文件 里 面 声明 的 : 




































































from django.conf.urls import patterns, include, url 
from django.contrib import admin 
from addressesapp.api import AddressesList 


urlpatterns = patterns('', 
url(r'^docs/', include('rest framework swagger.urls')), 
url(r'^$','addressesapp.views.main'), 
url(r'^book/','addressesapp.views.addressesbook',name-z'addressesbo 
ok'), 
url (r'^delete/(?P«name».*)/','addressesapp.views.delete person', 
name='delete_person'), 
url(r'^book-search/','addressesapp.views.get contacts', name='get_ 
contacts'), 
url(r'^addresses-list/', AddressesList.as view(), name-'addresseslist'), 
url(r'^notfound/','addressesapp.views.notfound' ,name='notfound') , 
url(r'^admin/', include (admin.site.urls)), 











每 个 URL 都 是 用 正则 表达 式 指 定 的 〈URL 字符 串 前 要 加 一 个 r)， 因 此 主页 的 地 址 被 
指定 为 http:/127.0.0.1:8000/〔 正 则 表达 式 以 表示 开始 的 ^ 符 号 开始 ， 后 面 紧 跟 表示 结束 的 $ 
符号 )， 它 的 动作 (新 增 一 条 联系 人 信息 由 views.py 文件 里 的 main 函数 实现 : 


















































def main(request) : 
context={} 
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if request.method == 'POST': 
post data = request. POST 
data = {} 
data['name'] = post_data.get('name', None) 
data['email'] = post_data.get('email', None) 
if data: 


return redirect('%s?%s' % (reverse ('addressesapp.views. 
main'), 
urllib.urlencode({'q': data}))) 
elif request.method == 'GET': 
get_data = request.GET 
data- get data.get('q',None) 
if not data: 
return render to response( 
'addressesapp/home.html', RequestContext(request, 
context)) 
data = literal eval(get data.get('q',None)) 
print data 
if not data['name'] and not data['email']: 
return render to response( 
'addressesapp/home.html', RequestContext(request, 
context)) 


#add person to emails address book or update 

if Person.objects.filter (name=data['name']) .exists(): 
p = Person.objects.get (name=data['name']) 
p.mailz-zdata['email'] 
p.save() 

else: 

= Person() 

.name-data['name'] 

-mail=data['email'] 

. Save () 


'U o DU 'D 


#restart page 
return render to response( 
'addressesapp/home.html', RequestContext(request, 
context)) 








每 当 用 户 提交 、 保 存 一 条 新 的 联系 信息 ，POST 方法 将 请 求 转交 给 GET 方法 处 理 。 如 
果 姓 名 和 邮件 信息 齐全 ， 则 创建 一 个 Person 对 象 ， 如 果 该 对 象 已 存在 ， 则 进行 更 新 。 注 意 
名 字 相 同 , 大 小 写 不 同 , 该 方法 (Person.objects.get()) 将 其 看 作 是 不 同 的 名 字 , 因此 Andrea, 
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ANDREA 和 andrea 将 被 当 作 三 条 不 同 的 联系 人 信息 。 如 想 解 决 这 个 问题 , 读者 可 用 lower() 
函数 将 name 字段 的 值 转换 为 小 写 ， 这 样 三 个 andrea 表达 式 指向 同一 个 andrea. 


base.html 文件 的 查找 动作 对 应 http://127.0.0.1:8000/book-search/ 这 个 URL 地 址 ， 该 动 




















作 的 处 理 函 








数 为 views.py 的 get_contacts 函数 : 


def get_contacts (request) : 


logging .debug ('here') 
if request.method == 'GET': 
get_data = request.GET 
data= get_data.get('term','') 
if data == '': 
return render to response( 
'addressesapp/nopersonfound.html', 
RequestContext (request, {})) 
else: 
return redirect('$s?$s' $ 
(reverse('addressesapp.views.addressesbook'), 
urllib.urlencode(('letter': data}))) 








如 果 用 户 在 页 面 头 部 的 文本 域 ,输入 一 个 非 空 字 符 串 , 该 函数 将 请 求 转交 addressesbook 
函数 ， 去 搜索 用 户 输入 的 查询 词 〈 若 未 找到 ， 展 示 相 应 的 提示 页 )。 


导航 栏 的 Emails book 按钮 ,指向 URL http://127.0.0.1:8000/book/, 该 URL 触发 addressesbook 
函数 ， 展 示 联 系 人 列表 : 








def addressesbook (request) : 


context = {} 
logging.debug('address book') 
get_data = request.GET 
letter = get_data.get('letter' ,None) 
if letter: 
contacts = Person.objects.filter(name iregex-r"(^|Ns)$s" $ 


letter) 


else: 

contacts - Person.objects.all() 
#sorted alphabetically 
contacts = sort lower(contacts,"name")fcontacts.order by ("name") 
context['contacts']=contacts 
alphabetstring-'ABCDEFGHIJKLMNOPQRSTUVWXYZ!' 
context['alphabet']=[1 for 1 in alphabetstring] 
return render to response( 

'addressesapp/book.html', RequestContext(request, context)) 


def sort lower(lst, key name): 


6.3 


return sorted(lst, key=lambda item: getattr(item, 
key_name) . lower () ) 


letter 字段 存储 名 字 (Find 按钮 发 起 请 求 ， 再 转交 addressesbook PAA 


管理 后 全 
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UH) 或 字母 




















(从 Emails book 页 面 发 起 的 请 求 ), 然后 对 Person model 进行 查找 。 检索 得 
存储 在 context XJ $& contacts 中 , 而 字母 存储 在 context XJ $& alphabet 4 
























































到 的 联系 人 信 ， 
P 如果 没有 指定 字母 ， 


E 


Us 





返回 数据 库 所 有 








BOR Ada. dia 





意 ， 名 字 首 字母 大 小 写 都 有 可 能 ， 因 





此 常用 的 order by 














方 


法 无 法 按照 字母 顺序 为 名 字 排 序 。 因 




















将 每 个 名 字 转 换 





而 ， 我 们 使 用 sort lower WIE, 7 





为 小 写 形式 ， 再 按 字 母 顺 序 排序 。 
































删除 操作 由 delete person 函数 实现 ， 请 求 http://127.0.0.1:8000/delete/(?P.*)/ 这 个 URL 
地 址 可 触发 删除 操作 。.* 表 示 所 有 字符 都 是 名 字 的 合法 组 成 部 分 (注意 如 果 我 们 只 想 用 字 


符 、 数 字 和 空格 ， 应 使 月 


def 


该 函数 搜索 Person Zi 








H[a-zA-Z0-9 ]+): 


delete person(request,name): 

if Person.objects.filter (name=name) .exists(): 
p = Person.objects.get (name=name) 
p.delete () 


context = {} 
contacts Person.objects.all() 
#sorted alphabetically 
contacts sort lower (contacts,"name")icontacts.order by("name") 
context['contacts']=contacts 
return render to response( 
'addressesapp/book.html', RequestContext(request, context)) 




















H 











name, 找到 后 删除 ， 最 后 返 只 包含 剩余 联系 








E7 




















Ades ELS HE 988 ULTRI o 




















E 





URL 地 址 admin 18 
我 们 在 6.3.3 节 会 讲 。 








E, RAJE urls.py 文件 中 定义 的 “notfound” 这 一 URL， 激 活 未 找到 联系 人 时 的 处 





PAZ notfound， 你 现在 应 该 明白 它 的 工作 方式 。 














向 Django 的 管理 后 人 台 ( 见 下 节 ), 而 docs 为 REST 框架 的 swagger, 



































6.3 管理 后 台 
admin 面板 是 管理 应 用 的 用 户 界 面 ， 可 通过 浏览 器 访问 。 我 们 可 以 把 刚 创建 的 model 





加 到 admin.py 文件 里 ， 命 令 如 下 : 
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from models import Person 
admin .site.register (Person) 





所 有 model 都 可 以 从 用 户 界面 访问 ， 地 址 在 : 














http://127.0.0.1:8000/admin/ 


访问 以 上 网 址 ， 需 输入 用 户 名 和 密码 才能 完成 登录 。 所 以 ， 我 们 先 用 以 下 命令 创建 用 
户 名 ， 设 置 密码 : 








python manage.py createsuperuser 


然后 ， 输 入 用 户 名 、 密 码 ( 我 用 的 是 andrea/a)。 








Site administration 











me onde aa I — 
Persons "RAdd Change 
m——————— ee - 

Groups Add 2 Change 
Users Add Change 








图 6.3 
单 击 Persons, 我 们 将 会 看 到 用 联系 人 名 字 表 示 的 Person 对 象 ( 因 为 我 们 在 Person model 
的 _unicode ”函数 里 ， 指 定 用 名 字 这 个 字段 指 代 模型 )， 见 图 6.4: 


Select person to change 
































Action: | --------- zl Go | 0 of 4 selected 
.] Person 

addd-ww 

www 1 

Andrea Isoni 


ss 


4 persons 














6.3.1 shell 接口 








Django 框架 还 提供 用 shell 探索 和 测试 已 创建 的 model。 在 终端 输入 以 下 命令 ， 启用 shell: 





BA 
6.3. 
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python manage.py shell 


导入 Person model， 并 尝试 操作 它 : 


In [1]: from addressesapp.models import Person 

In [2]: newcontact = Person () 

In [3]: newcontact.name = 'myfriendl1' 

In [4]: newcontact.mail = 'bla@.com' 

In [5]: newcontact. save () 

In [6]: Person.objects.all() 

Out[6]: [<Person: ss», «Person: Andrea Isoni», «Person: www 1», 
XPerson: addd-ww>, «Person: myfriendl»] 











上 述 代 码 新 建 一 个 联系 人 对 象 myfriendl， 然 后 查询 所 有 的 Person 对 象 ， 以 证 实 新 对 
没有 创建 成 功 。 


2 命令 






































Django 框架 很 灵活 ， 我 们 可 以 自 定 义 命令 并 用 manage.py 模块 来 执行 。 例 如 ， 我 们 想 

















联系 人 列表 到 CSV 文件 。 方法 如 下 : 在 management 文件 夹 创 建 commands 文件 夹 (每 
牛 夹 都 放 一 个 _init .py 文件 )。 然 后 ， 扩 展 BaseCommand 类 ， 实 现 用 自 定义 的 命令 















































联系 人 列表 到 CSV. 文件 的 功能 : 


from addressesapp.models import Person 

from django.core.management.base import BaseCommand, CommandError 
from optparse import make_option 

import csv 


class Command (BaseCommand) : 
option_list = BaseCommand.option_list + ( 
make_option('--output', 
dest='output', type='string', 
action='store', 


help='output file'), 
def person data(self, person): 
return [person.name,person.mail] 
def handle (self, *args, **options) : 


outputfile = options['output'] 
contacts = Person.objects.all() 
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header = ['Name','email'] 

f = open (outputfile, 'wb') 

writer = csv.writer(f, quoting-csv.QUOTE NONNUMERIC) 

writer.writerow (header) 

for person in contacts: 
writer.writerow(self.person data (person)) 


该 命令 必须 定义 一 个 handler 函数 ， 执 行 导出 操作 。 在 test_server 文件 夹 路 径 下 ， 执 行 


python manage.py contacts_tocsv -output='contacts_list.csv' 


6.3.3 RESTful 应 用 编程 接口 (API ) 




















RESTful API 是 采用 HTTP 请 求 〈 比 如 GET 和 POST) 管理 Web 应 用 数据 的 应 用 编程 接 
。 举 个 例子 ,我 们 要 实现 用 curl 命令 调用 API 来 获取 地 址 得。 方法 如 下 :我 们 需要 在 settings.py 
INSTALLED APPS 部 分 定义 rest framework 应 用 ， 然 后 在 api.py 文件 实现 这 个 API: 



















































































from rest_framework import viewsets, generics, views 

from rest_framework.response import Response 

from rest_framework.permissions import AllowAny 

from rest_framework.pagination import PageNumberPagination 
from addressesapp.serializers import AddressesSerializer 
from addressesapp.models import Person 


class LargeResultsSetPagination (PageNumberPagination) : 
page_size = 1000 
page_size query param = 'page_size' 
max_page_size = 10000 


class AddressesList (generics.ListAPIView) : 


serializer class = AddressesSerializer 
permission_classes = (AllowAny,) 
pagination_class = LargeResultsSetPagination 


def get_queryset (self): 
query = self.request.query params.get 
if query('name'): 
return Person.objects.filter(name-query('name')) 
else: 
return Person.objects.all() 





我 们 用 ListAPIView 类 ,返回 所 有 Person 对 象 , 或 只 返回 与 name 值 匹 配 的 Person 对 象 。 因 
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为 返回 的 列表 也 许 很 大 ， 我 们 需要 重 写 PageNumberPagination 类 ， 在 同一 页 展示 更 多 的 对 象 ; 
LargeResultsSetPagination 类 , 每 页 最 多 可 包含 1 万 个 对 象 . 该 API 需要 将 Person 对 象 转换 为 JSON 
格式 的 对 象 ， 在 serializers.py 文件 编写 serializer 对 象 Addresses Serializer 来 实现 这 个 功能 : 

















from addressesapp.models import Person 
from rest_framework import serializers 


class AddressesSerializer (serializers .HyperlinkedModelSerializer) : 
class Meta: 


model = Person 
fields = ('id', 'name', 'mail') 





然后 ， 我 们 可 以 用 curl 命令 请 求 地址 德 ; 


curl -X GET http://localhost:8000/addresses-list/ 











注意 URL 最 后 的 斜 线 。 同 样 ， 我 们 可 以 通过 指定 联系 人 姓名 来 获取 他 们 的 邮箱 : 


curl -X GET http://localhost:8000/addresses-st/?name-name value 






































如 果 联 系 人 数量 很 多 (或 修改 分 页 的 数量 ), 我 们 可 以 用 参数 指定 请 求 哪 一 页 。 TE urls.py 
文件 ， 我 们 还 指定 了 Swagger RESTful API 文档 的 URL 地 址 ， 开 发 人 员 可 在 浏览 器 查看 和 
测试 这 些 API, ULE 6.5: 


{} SWagger http://127.0.0.1:8000/docs/api-docs/ 





addresses-list E 


/addresses-list/ 


Response Class 
Model Mo 


AddressesSerializer ( 
id (integer), 
name (string), 
mail (string) 


) 


Response Content Type  application/json 
Try it out! 














D 








6.5 
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这 种 方式 非常 友好 ， 便 于 开发 人 员 验 证 API 是 否 能 够 正常 工作 ， 数 据 格 式 是 否 正确 。 








6.4 小 结 




















本 章 讨 论 怎 样 用 Django 框架 搭建 Web 应 用 。 我 们 介绍 了 model. admin, view. command. 
shell 以 及 RESTful API 等 Django 的 主要 功能 。 学 完 本 章 , 读者 应 该 已 具备 开发 实用 型 Web 
NH 的 必要 知识 o 

后 续 两 章 ， 我 们 将 用 这 些 知 识 和 前 面 所 讲 的 内 容 搭 建 电影 推荐 引擎 和 电影 情感 分 析 系 统 。 


























































































































本 章 讲解 如 何 用 Django 框架 搭建 一 个 真实 的 推荐 系统 。 该 系统 的 主要 功能 是 , 根据 用 








第 7 章 
电影 推荐 系统 Web 应 用 


















































户 的 喜好 (第 5 章 讲 过 ),， 向 订阅 了 推荐 服务 的 用 户 推 荐 











电影 ， 我 们 沿用 第 5 章 的 ! 


















































影评 分 








数据 : 603 部 电影 的 打分 数据 ， 其 中 每 部 电影 的 打分 人 次 在 50 次 以 上 ， 共 有 942 位 用 户 参 








与 打分 。 为 了 能 够 得 到 系统 提供 的 电影 推荐 服务 ， 每 位 用 户 需要 为 一 定数 量 的 电影 打分 ， 




















我 们 特意 讲解 信息 检索 系统 的 实现 (第 4 章 )， 以 帮助 用 户 检索 电影 
出 、 命 令 、 信 息 检索 系统 、 








讨论 Django 应 用 的 不 同 部 分 : setting、model、 用 户 登 录 / 登 




















、 完 成 打分 。 我 们 还 将 














推荐 系 











统 、 管 理 后 台 和 API (所 有 代码 均 已 放 到 作者 GitHub 仓库 chapter 7 文件 夹 : https://github.com/ 
)。 因 为 第 6 章 只 介绍 了 Django 的 


























ai2010/machine learning for the web/tree/master/chapter 7 











主要 功能 ， 所 以 在 开发 电影 推荐 系统 过 程 中 ， 每 遇 到 一 个 新 功能 ， 我 们 都 会 讲解 

































































其 技术 细 

















节 。 现 在 我 们 开始 介绍 推荐 系统 这 个 Web 应 用 的 初始 化 配置 ， 让 它 先 跑 起 来 。 

















7.1 让 应 用 跑 起 来 

















按照 之 前 的 做 法 ， 新 建 一 个 Django 项 目 











django-admin startproject server movierecsys 





在 server_movierecsys 文件 夹 下 ， 新 建 一 个 应 用 : 





python manage.py startapp books recsys app 




















接 下 来 ， 对 settings.py 里 面 的 各 项 内 容 进行 设置 。 仿 照 第 6 章 的 做 法 ， 安 装 应 用 ， 指 























定 HTML 模板 和 样式 文件 的 路 径 ， 指 定 使 用 SQLite Zt 


INSTALLED APPS = ( 








BE: 
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'django.contrib.admin', 


'django.contrib.auth', 


'django.contrib.contenttypes', 


'django.contrib.sessions', 


'django.contrib.messages', 


'django.contrib.staticfiles', 


'rest 
'rest 


framework', 


framework_swagger', 


"books_recsys_app', 





H 


EMPLATE 


OS.pa 











STATIC_UR 
STATICFIL 
DATABASES 











.DIRS = ( 


th.join(BASE DIR, 'templates'), 





L = '/static/' 
ES DIRS = ( os.path.join(BASE DIR, "static"), ) 





cud 


'default': { 











ENGINE': 'django.db.backends.sqlite3', 











'NAME': os.path.join(BASE DIR, 'db.sqlite3'), 











除了 Django 提供 的 标准 应 用 ， 我 们 还 在 应 用 列表 (INSTALLED_APPS) 添加 了 REST 








框架 (swagger). 

















该 例 中 ， 我 们 需要 将 数据 加 载 到 内 存 中 长 久保 存 ， 这 样 每 次 用 户 请 求 数据 ， 无 须 计 算 





或 检索 数据 ， 以 此 来 提升 用 户 体验 。 我 们 在 settings.py XH 























5 











， 设 置 启用 Django 框架 的 缓存 






































系统 ， 将 数据 或 计算 开销 较 大 的 运算 结果 保存 到 内 存 : 


CACHES = 

















{ 


'default': ( 
'BACKEND': 'django.core.cache.backends.filebased. 





FileBasedCache', 





LOCATION': '/var/tmp/django_cache', 


tm 








IMEOUT': None, 


我 们 选择 使 用 存储 在 /var/tmp/django_cache 的 File Based Cache 2573, TIMEOUT (过 
期 时 间 ) 设置 为 None， 表 示 绥 存 中 的 数据 永 不 过 期 。 








7.2 model 








用 以 下 命令 创建 超级 管理 员 用 户 ， 以 便 使 用 管理 后 台 : 

















Python manage.py createsuperuser (admin/admin) 

















输入 以 下 命令 ， 启 动 服务 器 ， 访 问 http://localhost:8000/， 就 能 看 到 应 用 的 首页 : 








python manage.py runserver 


7.2 model 
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对 于 电影 推荐 系统 这 一 应 用 ， 我 们 需要 存储 每 一 部 电影 的 相关 数据 以 及 每 位 网 站 | 








is 





HIST Be FAN i 2 BE = T BUM. 


class UserProfile (models.Model): 





user = models.ForeignKey(User, unique-True) 
array = jsonfield.JSONField() 
arrayratedmoviesindxs = jsonfield.JSONField() 
lastrecs = jsonfield.JSONField() 


def | unicode (self): 


return self.user.usernam 





def save(self, *args, **kwargs): 
create - kwargs.pop('create', None) 
recsvec - kwargs.pop('recsvec', None) 
print 'create:',create 
if create--True: 
super(UserProfile, self).save(*args, **kwargs) 





lif recsvec!=Non 
self.lastrecs - json.dumps (recsvec.tolist()) 
super(UserProfile, self).save(*args, **kwargs) 
else: 
nmovies = MovieData.objects.count () 














array = np.zeros (nmovies) 
ratedmovies = self.ratedmovies.all() 
self.arrayratedmoviesindxs = json.dumps([m.movieindx for m 


in ratedmovies]) 
for m in ratedmovies: 
array[m.movieindx] = m.value 
self.array = json.dumps (array.tolist()) 
super(UserProfile, self).save(*args, **kwargs) 
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class MovieRated(models.Model): 








user = models.ForeignKey(UserProfil 


, related name-'ratedmovies') 





movie = models.CharField(max length-100) 
movieindx = models.IntegerField(default--1) 








value = models.IntegerField() 


class MovieData (models.Model): 
title = models.CharField(max length-100) 
array = jsonfield.JSONField() 
ndim = models.IntegerField(default-300) 








description = models.T 


xtFi 

















MovieData 这 个 model 存储 每 部 电影 


为 向 量 的 维度 )。MovieRated 记录 每 

















ld() 











应 一 个 UserProfile 对 象 , 即使 用 该 网 








站 的 








TP). 








有 这 个 对 象 ， 电 影 打 分 和 推荐 功能 才 有 存在 的 可 外 











的 相关 数据 : 影片 名 称 、 简 介 、 向 量 表示 (dim 
位 用 户 为 哪些 电影 打 过 分 (每 个 MovieRated 对 象 ， 对 
UserProfile model 存储 网 站 所 有 注册 用 户 ， 


bo SEA UserProfile 是 对 Django 自 带 的 





user model 的 扩展 , 在 此 基础 上 增加 了 array 字段 , 以 存储 当前 用 户 对 所 有 电影 的 打分 数据 ， 


此 外 还 增加 了 recsvec 字段 ， 存 储 上 一 次 为 当前 用 户 推荐 的 电 景 























SS 


























我 们 重 写 了 save 函数 ， 


用 (与 当前 用 户 对 应 的 ) MovieRated 对 象 填充 array 字段 (如 果 else 语句 为 真 ); 用 上 一 次 


的 推荐 数据 填充 lastrecs (如 果 else if 语句 为 真 )。 请 注意 ， 


UserProfile， 其 related name 为 “raetedmovies”: UserProfile model 的 save 函数 中 ， 






































MovieRated model 的 外 键 





self.ratedmovies.all() 指 的 是 同一 UserProfile 的 所 有 RatedMovie 对 象 。UserProfile model 的 





arrayratedmoviesindxs 字段 ， 记 录 着 用 户 打 过 























我 们 执行 以 下 命令 ， 将 models.py 文件 中 定义 的 这 些 数 据 结 构 写 到 数据 


python manage.py makemigrations 


python manage.py migrate 


7.3 命令 








电影 推荐 系统 这 一 应 用 , 为 了 让 用 户 感觉 速度 很 快 , 我们 想 将 数 











这 就 要 用 到 自 定义 的 命令 。 我 们 这 是 








过分 的 所 有 电影 ， 电 影 推荐 系统 应 用 的 API 将 使 





















































库 : 





居 加 载 到 内 存 (缓存 )， 


有 用 的 电影 数据 (603 部 电影 ，942 ee 分 数据 ， 














每 部 电影 打分 人 次 在 50 KUE) ERS 





B4 章 使 

















让 用 户 检索 电影 、 完 成 打分 ， 还 需要 向 有 











户 提供 电影 简介 






































3 的 相同 , 但 是 除 此 之 外 , 搭建 信 ， 
ERSZ. 我 们 接 下 来 开发 第 








条 命令 ， 实 现 从 第 4 章 的 效用 矩阵 获取 电影 名 称 ， 再 从 开放 电影 数据 库 (Open Movie 

















Database, OMDB) 采集 电影 简介 的 功能 : 
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from django.core.management.base import BaseCommand 


import os 

import optparse 

import numpy as np 

import json 

import pandas as pd 

import requests 

class Command (BaseCommand) : 


option list = BaseCommand.option list + ( 


optparse.make option('-i', 


optparse.make option('-o', 
dest='plotsfile', 


'--input', dest-'umatrixfile', 
type-'string', action-'store', 
help-('Input utility matrix')), 


'--outputplots', 


type-'string', action-'store', 
help-('output file')), 


optparse.make option('--om', '--outputumatrix', 


dest='umatrixoutfile', 





type-'string', action-'store', 
help-('output file')), 


def getplotfromomdb (self,col,df moviesplots,df movies,df 


utilitymatrix): 
string = col.split(';')[0] 


title-string[:-6].strip() 
year = string[-5:-1] 





plot = ' '.join(title.split(' ')).encode('ascii','ignore')+'. 

url = "http://www.omdbapi.com/?t="ttitlet"éy="tyeart"é&plot=fu 
ll&r-json" 

headers-("User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; 








x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 


Safari/537.36"} 





r = requests.get (url, headers=headers) 


jsondata = json.loads (r.content) 


if 'Plot' in jsondata: 
#store plot + title 
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plot += jsondata['Plot'].encode('ascii','ignore') 


if plot!=None and plot!-2'' and plot!=np.nan and 
len(plot)>3:#at least 3 letters to consider the movie 
df_moviesplots.loc[len(df_moviesplots) J=[string, plot] 


df utilitymatrix[col] = df movies[col] 
print len(df utilitymatrix.columns) 


return df moviesplots,df utilitymatrix 


def handle(self, *args, **options): 
pathutilitymatrix = options['umatrixfile'] 
df movies = pd.read csv(pathutilitymatrix) 
movieslist = list(df movies.columns[1:]) 
df moviesplots = pd.DataFrame (columns=['title', 'plot']) 
df utilitymatrix = pd.DataFrame () 
df utilitymatrix['user'] = df movies['user'] 


for m in movieslist[:]: 
df moviesplots,df utilitymatrix-self.getplotfromomdb (m,df 
moviesplots,df movies,df utilitymatrix) 


outputfile = options['plotsfile'] 
df_moviesplots.to_csv(outputfile, index=False) 





outumatrixfile = options['umatrixoutfile'] 
df_utilitymatrix.to_csv(outumatrixfile, index=False) 





该 命令 的 执行 方式 如 下 : 


python manage.py --input-utilitymatrix.csv --outputplots-plots.csv - 
outputumatrix-'umatrix.csv' 











TT 





每 部 电影 的 名 称 存储 在 utilitymatrix X fF, getplotfromomdb 函数 用 Python 的 requests 
模块 ， 从 网 站 http:/www.omdbapi.comy/ 检 索 电影 的 简介 。 电 影 简介 〈 和 和 名称) 以 及 相应 的 
MAHERE Coutputumatrix) 保存 到 一 个 CSV 文件 (outputplots)。 


我 们 再 来 看 第 2 个 命令 : 用 电影 简介 ， 创 建 信息 检索 系统 CTF-IDF 模型 )， 支 持 根据 
j 户 输入 的 词语 查找 相关 电影 。 然 后 ,将 TF-IDF 模型 和 最 初 的 推荐 系统 模型 (基于 商品 的 
CF 和 对 数 似 然 比 ) 保存 到 Django 的 缓存 之 中 。 代 码 如 下 : 





























































































































from django.core.management.base import BaseCommand 
import os 


import optparse 
import numpy as np 
import pandas as pd 
import math 

import json 

import copy 


from BeautifulSoup import BeautifulSoup 











import nltk 

from nltk.corpus import stopwords 

from nltk.tokenize import WordPunctTokenizer 
tknzr = WordPunctTokenizer () 
#nltk.download('stopwords') 

stoplist = stopwords.words('english') 

from nltk.stem.porter import PorterStemmer 


stemmer = PorterStemmer () 





from sklearn.feature_extraction.text import TfidfVectorizer 





from books_recsys_app.models import MovieData 
from django.core.cache import cache 


class Command (BaseCommand) : 


option list = BaseCommand.option list + ( 
optparse.make option('-i', '--input', dest-'input', 

type-'string', action-'store', 
help-('Input plots file')), 

optparse.make option('--nmaxwords', '--nmaxwords', 
dest-'nmaxwords', 
type-'int', action-'store', 
help-('nmaxwords')), 

optparse.make option('--umatrixfile', '--umatrixfile', 
dest-'umatrixfile', 
type-'string', action-'store', 





help=('umatrixfile')), 


def PreprocessTfidf (self, texts, stoplist=[],stem=False): 





newtexts = [] 
for i in xrange(len(texts)): 


text = texts[i] 
if stem: 
tmp = [w for w in tknzr.tokenize(text) if w not in 
stoplist] 


else: 
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tmp = [stemmer.stem(w) for w in [w for w in tknzr. 





tokenize(text) if w not in stoplist]] 
newtexts.append(' '.join(tmp)) 
return newtexts 


def handle(self, *args, **options): 
input file = options['input"] 


df = pd.read csv(input file) 
tot textplots - df['plot'].tolist() 
tot titles = df['title'].tolist() 


nmaxwords-options['nmaxwords'] 





vectorizer - TfidfVectorizer(min df-0,max features-nmaxwords) 


processed plots = self.PreprocessTfidf(tot 





textplots,stoplist,True) 
mod tfidf = vectorizer.fit(processed plots) 
vec tfidf = mod tfidf.transform(processed plots) 
ndims = len (mod tfidf.get feature names()) 





nmovies = len(tot titles[:]) 


fdelete all data 
MovieData.objects.all().delete() 


matr = np.empty([1,ndims] ) 

titles = [] 

cnt=0 

for m in xrange (nmovies): 
moviedata = MovieData () 
moviedata.title-tot titles[m] 
moviedata.description-tot textplots [m] 
moviedata.ndim= ndims 


moviedata.array-json.dumps (vec tfidf[m].toarray()[0]. 





tolist()) 
moviedata.save() 
newrow = moviedata.array 
if cnt==0: 


matr[0]=newrow 
else: 
matr = np.vstack([matr, newrow] ) 
titles.append (moviedata.title) 
cnt+=1 
#cached 
cache.set('data', matr) 
cache.set('titles', titles) 




















cache.set('model',mod tfidf) 


#load the utility matrix 
umatrixfile = options['umatrixfile'] 
df umatrix = pd.read_csv(umatrixfile) 


Umatrix = df_umatrix.values[:,1:] 


cache 
fload 


.set('umatrix',Umatrix) 


rec methods... 





e 


cacne. 


llr = 





cacne. 


from scipy.stats import pearsonr 
from scipy.spa 


mbased = CF_itembased (Umatrix) 
set('cf itembased',cf itembased) 
LogLikelihood (Umatrix,titles) 
set('loglikelihood',llr) 


def sim(x,y,metric='cos'): 


if metric 


return 


== 'cos!: 





1.-cosine (x,y) 


else: #correlation 


return pearsonr (x,y) [0] 


class CF itembased(object): 


class LogLikelihood (object): 


命令 的 执行 方式 如 下 : 


ial.distance import cosine 
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python manage.py load data --input-plots.csv --nmaxwords-30000 


--umatrixfile-umatrix.csv 


参数 input 接收 的 是 用 get plotsfromtitles 命令 获取 到 的 | 
指定 最 大 单词 数 ， 创 建 TF-IDF 模型 〈 见 第 4 章 )。 将 每 部 电影 的 数据 保存 到 
BE 影 名 称 、TF-IDF 表示 、 简 介 、TF-IDF 词汇 量 )。 请 注 
] nltk.download('stopwords") 语 句 下 载 停 用 词 表 (上 述 代码 ， 该 行 语句 被 注 和 


用 以 下 命令 ， 将 TF-IDF 模型 、 电 影 名 称 列表 和 月 
Django 的 缓存 ; 




















from django.core.cache import cache 



































cache.set('model',mod tfidf) 





Ea 


5x 


Ed, AS 
A 简介 。 

















ja 





第 一 次 运 


参数 nmaxwords 


| MovieData 对 


行 该 命令 ， 需 要 


AN nue 





efi rf. 


























H TF-IDF 年 阵 表示 的 电影 ， 保 存 到 
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cache.set('data', matr) 
cache.set(' 





titles', titles) 


请 注意 ，Django 的 cache 模块 (django.core.cache ) 
使 用 前 ， 要 先导 入 它 。 导 入 语句 要 放 到 文件 的 开始 


位 置 。 
照 | 














日 ， 我 们 用 


























SUFFER Cumatrixfile) 初始 化 两 种 推荐 方法 : 基于 商品 的 协同 过 滤 和 对 
数 似 然 比 方法 。 这 两 种 方法 没有 写 到 上 面 的 代码 中 , 因为 它们 基本 与 第 5 章 讲解 的 相同 ( 完 
整 代码 照例 见 作 者 的 GitHub 仓库 chapter 7 文件 夹 )。 然 后, 我们 将 这 两 种 推荐 模型 及 效 
矩阵 加 载 到 Django 的 缓存 以 备 后 续 之 

































































cache.set('umatrix',Umatrix) 


cache.set('cf itembased',cf itembased) 
cache.set('loglikelihood',llr) 


现在 ， 调 用 相应 的 名 称 ， 就 可 以 刀 


E 网 页 使 用 数据 (和 模型 )， 详 见 后 续 几 节 
7.4 实现 用 户 的 注册 、 登 录 和 登 出 功能 




















电影 推荐 系统 这 一 应 用 ， 是 要 向 注册 网 站 的 不 同 用 户 推荐 电影 ， 因 此 我 们 需要 实现 注 
册 、 登 录 和 登 出 功能 。 我 们 使 用 Django 的 标准 User 对 象 实现 注册 过 程 ， 前 面 model 一 节 
已 讲 过 User 对 象 。 该 应 用 的 每 个 网 页 都 将 引 月 

部 横 栏 ， 支 持 用 户 注册 或 登录 ( 右 侧 )， 见 




























































































H base.html 页 面 ， 我 们 在 base.html 实现 了 顶 
图 7.1: 














PÉ 





图 7.1 











F signin (登录 ) 或 sign up CEM) 按钮 ， 将 激活 以 下 代码 : 





<form class="navbar-search pull-right" action="{% url 
‘auth’ $}" method="GET"> 





{% 


csrf token %} 


<div style="overflow: 
.5em;"» 


hidden; padding-right: 
<input type="submit" name-"auth method" 
Value="sign up" size="30" style="float: 


right" /> 
<input type="submit" name="auth_method" 
size="30" style="float: 


value="sign in" 


right" /> 
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</div> 
</form> 





这 两 个 方法 指向 urls.py: 


url(r'^auth/', 'books recsys app.views.auth', name-'auth') 




















上 述 URL 调用 views.py 文件 的 auth 函数 来 处 理 : 





u 


def auth (request): 
if request.method == 'GET': 
data = request.G 
auth method = data.get('auth method') 
if auth method--'sign in': 








Fl 
- 





return render to response( 





'books recsys app/signin.html', RequestContext(request, 


{})) 


else: 





return render to response( 


'books recsys app/createuser.html', 


RequestContext(request, {})) 
lif request.method == 'POST 
post data = request.POST 














name = post data.get('name', None) 


pwd = post data.get('pwd', None) 
pwdl = post data.get('pwdl', None) 








create - post data.get('create', None)4hidden input 





if name and pwd and create: 





if User.objects.filter(username-name). 


pwd!=pwdl: 


return render_to_response ( 








'books recsys app/userexistsorproblem.html', 





RequestContext (request)) 





user = User.objects.create user (username=name, password=pwd) 


uprofile = UserProfile() 


uprofile.user = user 





uprofile.name = user.usernam 
uprofile.save(create-True) 








or 


user = authenticate(username=name, password=pwd) 


login(request, user) 





return render_to_response ( 





'books recsys app/home.html', RequestContext (request) ) 
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elif name and pwd: 





user = authenticate (username=name, password=pwd) 
if user: 
login(request, user) 





return render to response( 
'books recsys app/home.html', 
RequestContext (request)) 
else: 
#notfound 
return render to response( 








'books recsys app/nopersonfound.html', 





RequestContext (request)) 














auth 函数 将 用 户 导 向 图 7.2 注册 页 面 : 























Create User 



































图 7.2 
如 用 户 已 注册 ， 将 导向 登录 页 面 ， 见 图 7.3: 
Sign In 

















图 7.3 


该 页 面 支持 用 户 输入 用 户 名 和 密码 ， 登 录 网 站 。 然 后 ， 网 站 用 这 些 数据 创建 Django HE 
架 的 User 对 象 和 相应 的 UserProfile A 注意 参数 create 为 True， 表 示 保 存 新 建 的 用 户 对 
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象 时 ， 没 有 为 其 指定 电影 列表 ， 因 为 新 用 户 还 没有 为 任何 电影 打 过 分 ): 


user = User.objects.create_user (username=name, password=pwd) 
uprofile = UserProfile() 

uprofile.user = user 

uprofile.save (create=True) 

user = authenticate (username=name, password=pwd) 


然后 ， 用 Django 的 标准 登录 函数 将 用 户 登 录 进 来 : 


from django.contrib.auth import authenticate, login 





















































login(request, user) 








登录 之 后 ， 网 站 的 顶 栏 显示 效果 Cusername Wa) 见 图 7.4: 
Home a) 








图 7.4 


WR AAO CEA, X530 TR RUD XH EAE] CoS, 383087] 
异常 情况 ), 这 两 种 情况 的 处 理 均 已 实现 , 读者 可 自行 查看 代码 ， 了 解 这 些 异 常事 件 的 处 理 方法 。 


sign out CEH) 按钮 指向 urls.py 以 下 语句 : 


url (r'*signout/', 'books_recsys_app.views.signout',name='signout') 





































































































iX URL 调用 views.py 文件 的 signout 函数 处 理 : 


from django.contrib.auth import logout 


def signout (request): 
logout (request) 
return render to response( 
'books recsys app/home.html', RequestContext (request)) 




















该 函数 使 用 了 Django 标准 的 logout 方 法 , 将 用 户 导向 首页 (再 次 显示 sign in 和 sign up” 
按钮 )。 实 现 了 注册 、 登 录 和 登 出 功能 之 后 ， 用 户 可 以 登录 网 站 ， 使 用 信息 检索 系统 〈 搜 索 
引擎 ) 搜索 电影 ， 为 电影 打分 。 下 节 ， 我 们 讲 信息 检索 系统 的 实现 方法 。 


7.5 ”信息 检索 系统 (电影 查询 ) 

















| 


































































































j 户 使 用 图 7.5 的 页 面 ， 搜 索 电影 ， 以 便 为 电影 打分 : 








— 




















示 注 册 按钮 “sign up”。 一 一 译 者 注 








e 
m 
E 
Em 
z 














© 原文 为 “sign in and sign out" , HA 
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m 











Search for movies to rate (title, actor, description etc.) 

















图 7.5 








在 文本 框 输入 几 个 相关 词 ， 该 页 面 〈 通 过 urls.py 文件 里 的 URL home) 调用 views.py 
文件 里 的 home 函数 : 


def home (request): 
context={} 
if request.method == 'POST!: 
post_data = request.POST 
data = {} 
data = post_data.get('data', None) 
if data: 
return redirect ('%s?%s' % (reverse('books recsys app. 





views.home'), 
urllib.urlencode({'q': data}))) 
lif request.method == 'GET': 
get_data = request.GET 
data = get_data.get('q',None) 
titles = cache.get('titles') 


if titles==None: 











print 'load data... 
texts = [] 

mobjs = MovieData.objects.all() 
ndim = mobjs[0].ndim 


matr = np.empty([1,ndim]) 

titles list = [] 

cnt=0 

for obj in mobjs[:]: 
texts.append(obj.description) 
newrow = np.array(obj.array) 
fprint 'enw:',newrow 
if cnt==0: 

matr[0]=newrow 


else: 


vec 
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matr = np.vstack([matr, newrow] ) 
titles_list.append(obj.title) 
cnt+=1 
torizer = TfidfVectorizer(min df-1,max features-ndim) 


processedtexts = PreprocessTfidf (texts,stoplist,True) 


mod 





1 = vectorizer.fit(processedtexts) 





cac 





he.set ('model',model) 


#cache.set ('processedtexts',processedtexts) 


cac 
cac 
else: 


he.set('data', matr) 
he.set('titles', titles list) 





print 'loaded',str(len(titles)) 


Umatrix 


= cache.get('umatrix') 


if Umatrix--None: 


df umatrix = pd.read csv (umatrixpath) 


Umatrix = df umatrix.values[:,1:] 


cache.set('umatrix',Umatrix) 
cf itembased = CF itembased(Umatrix) 
cache.set('cf itembased',cf itembased) 








cache.set('loglikelihood',LogLikelihood (Umatrix,moviesli 


st)) 


if not data: 





return render to response( 


context)) 


fload a 
matr - 
titles 


'books recsys app/home.html', RequestContext (request, 





ll movies vectors/titles 
cache.get('data') 


= cache.get('titles') 


model tfidf = cache.get('model') 


#find m 
queryve 
encode ('ascii', 


sims= c 





ovies similar to the query 

c = model tfidf.transform([data.lower(). 
'ignore')]).toarray() 

osine similarity (queryvec,matr) [0] 


indxs sims = list(sims.argsort()[::-1]) 


titles query = list(np.array(titles)[indxs sims] 


[:nmoviesperque 


context 
sims[:nmoviespe 


context 


ry]) 


['movies']= zip(titles query,indxs 
rquery]) 
['rates']=[1,2,3,4,5] 





return 


render_to_response ( 
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函数 开始 位 置 
内 存 后 ， 该 函数 利 











'books recsys app/query results.html', 


RequestCon 



































matr = cache.get('data') 
titles = cache.get('titles') 


model tfidf = cache.get('model') 
从 缓存 检索 矩阵 〈 键 : mat. HEC PR CH 


列表 〈 更 多 内 容 见 第 4 章 )。 第 1 次 调 
并 将 其 加 载 到 内 存 。 
查询 词 ， 网 站 将 返回 与 war RE) 最 相似 的 电影 (query_results.html)， 见 图 


数据 )， 




































































text (request, con 





text) ) 























titles), ikl 
该 函数 时 ， 缓 存 为 空 ， 这 时 直接 创建 模型 (和 其 他 


的 参数 data， 用 来 存储 用 户 输入 的 查询 词 。 


j 这 个 模型 ， 将 用 户 的 查询 词 转换 为 用 TF-IDF 方法 表示 的 向 量 : 


load_data 命令 将 模型 加 载 到 

















与 查询 词 向 量 相似 的 电影 











至 于 检索 系统 怎么 用 ， 我 们 举 个 例子 ， 比 如 用 户 输 入 war 作为 
7.6: 














name: East of Ede 


name: Gone witt 





name: Full Mete 





name: Piatoon (1986) 


name: Legends of the Fall (1994) 


rate: 1 2346 














图 7.6 为 查询 词 war 的 检索 结果 ， 系 统 返 





图 








7.0 














lal 5 部 日 























Hit (FRAY UE views.py 文件 开始 








位 置 用 nmoviesperquery 指定 每 次 查询 返回 的 电影 数量 )， 并 


下 节 要 实现 在 这 个 页 面 上 为 














电影 打分 这 一 功能 。 





7.6 打分 系统 


在 电影 检索 结果 页 面 ( 见 图 7.6)， 每 位 月 



































它们 大 多 与 战争 有 关 。 我 们 


























昌 户 (登录 后 )》 单 击 电影 名 称 后 面 的 分 数 ， 即 





可 为 电影 打分 。 单 击 分 数 的 动作 ， 将 触发 views.py 文件 的 rate movie 函数 “通过 在 urls.py 
定义 的 URL): 


def rate movi 








data = request.G 


(request): 


ET 
E 


rate = data.get("vote") 


movies,moviesindxs zip (*literal_eval (data.get ( 


movie data.get ("movie") 


movieindx int (data.get ("movieindx") ) 


#save movie rate 


userprofile None 


if request.user.is superuser: 

( 

'books recsys app/superusersignin.html', 
st)) 


r.is authenticated() 


return render to respons 








RequestContext (requ 





lif request.us 


UserProfil 
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"movies"))) 





userprofile - 


else: 


( 


'books recsys app/pleasesignin.html', 





return render to respons 





RequestContext (request)) 


Jie 


if MovieRated.objects. filter (movie=movi 





filter (user=userprofile) .exists(): 


.objects.get(user-request.user) 


mr = MovieRated.objects.get (movie=movie, user=userprofile) 





mr.value = int(rate) 
mr.save () 

else: 
mr = MovieRated () 
mr.user = userprofile 
mr.value - int(rate) 
mr.movie - movie 
mr.movieindx = movieindx 
mr. save () 


userprofile.save() 
#get back the remaining movies 


movies RemoveFromList (movies,movie) 


moviesindxs 
print movies 


{} 


context["movies"] 


context 


zip (movies,moviesindxs) 
[1,2,3,4,5] 
( 


'books recsys app/query results.html', 


context ["rates"] 





return render_to_respons 


context) ) 





RequestContext (request, 


该 函数 将 电影 的 分 数 存储 在 MovieRated 对 象 中 ， 同 时 更 新 月 


RemoveFromList (moviesindxs,movieindx) 


H RES LR) c e E 





rate (ii userprofile.saveO 实 现 )。 然 后 将 没有 打 过 分 的 电影 发 送 给 





页 面 query_results.html。 
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请 注意 ， 用 户 登 录 后 才能 为 电影 打分 ， 若 用 户 没 有 登录 ， 则 执行 异常 事件 处 理 流 程 ， 要 求 
用 户 登录 (页 面 : pleasesignin.html). 


7. 7 ”推荐 系统 



































该 函数 将 使 用 我 们 在 views.py 文件 的 前 面 定 义 的 几 个 参数 。 


nminimumrates=5 
numrecs-5 
recmethod = 'loglikelihood' 

















nminimumrates 指定 用 户 最 少 为 几 部 电影 打 过 分 , 才能 得 到 推荐 服务 ; numrecs 指定 向 
用 户 推荐 多 少 部 电影 ; recmethod 指定 推荐 系统 使 用 的 推荐 方法 。 用 户 单 击 顶 栏 的 
Recommendations (电影 推荐 ) 可 查看 系统 向 他 推荐 的 电影 ， 见 图 7.7: 





















































T 






























































= a 
图 7.7 
该 动作 将 触发 views.py 文件 的 movies recs 函数 〈 通 过 请 求 在 urls.py 文件 里 定义 相应 
的 URL): 
def movies_recs (request): 
userprofile = None 
if request.user.is superuser: 
return render to response( 
'books recsys app/superusersignin.html', 
RequestContext (request) ) 
lif request.user.is authenticated(): 
userprofile = UserProfile.objects.get(user-request.user) 


else: 
return render to response( 
'books recsys app/pleasesignin.html', 





RequestContext (request)) 
ratedmovies-userprofile.ratedmovies.all() 





context = {} 

if len(ratedmovies) <nminimumrates: 
context['nrates'] = len(ratedmovies) 
context ['nminimumrates']=nminimumrates 


return render to response( 
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'books recsys app/underminimum.html', 
RequestContext(request, context)) 





























u vec = np.array(userprofile.array) 
Umatrix = cache.get('umatrix') 
movieslist = cache.get('titles') 
#recommendation... 
u_rec = None 
if recmethod == 'cf userbased': 
u rec = CF userbased(u vec,numrecs,Umatrix) 
lif recmethod == 'cf itembased': 
cf itembased = cache.get('cf itembased') 
if cf itembased -- Non 
cf itembased = CF itembased(Umatrix) 
u rec = cf itembased.CalcRatings (u vec,numrecs) 
lif recmethod == 'loglikelihood': 
llr = cache.get ('loglikelihood') 
if llr == None: 


llr = LogLikelihood (Umatrix,movieslist) 
u_rec = llr.GetRecItems (u_vec, True) 
#save last recs 








userprofile.save(recsvec-u rec) 


context['recs'] = list(np.array(movieslist) [list (u_rec) ] 
[:numrecs]) 





return render to response( 


'books recsys app/recommendations.html', 
RequestContext(request, context)) 





181 


该 函数 从 当前 用 户 的 UserProfile 对 象 检索 所 有 已 打分 电影 的 向 量 ， 从 绥 存 加 载 推荐 系统 方 
ik OH recmethod 参数 指定 ) 计算 推荐 哪些 电影 。 推 荐 的 电影 首先 存储 到 userprofile 对 象 ， 然 
后 返回 给 recommendations.html 页 面 。 例 如 ， 用 cf itembased 方法 得 到 的 推荐 列表 ， 见 图 7.8: 
































Recommendations 
movie: Some Kind of 1987) 

















D 


7.8 
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图 7.8 是 推荐 结果 页 面 的 示例 ， 我 们 为 与 war 关键 词 相关 的 5 部 电影 打 过 分 后 〈 见 之 
前 的 打分 页 面 )， 得 到 了 这 样 的 推荐 结果 。 读 者 可 尝试 修改 前 面 设置 的 三 个 参数 ， 用 不 同 的 
推荐 算法 ， 看 看 结果 有 什么 不 同 。 






































7.8 管理 界面 和 API 












































为 了 方便 管理 推荐 系统 的 数据 ， 我 们 可 以 使 用 管理 后 台 和 API。 编 写 admin.py 文件 ， 
我 们 就 能 在 管理 面板 看 到 电影 数据 和 用 户 注册 数据 ， 代 码 如 下 : 

















from django.contrib import admin 


from books recsys app.models import MovieData, UserProfile 


class MoviesAdmin (admin.ModelAdmin): 
list display = ['title', 'description'] 


admin.site.register (UserProfile) 
admin.site.register (MovieData,MoviesAdmin) 








然后 ， 在 urls.py 文件 指定 admin 的 URL: 





url(r'^admin/', include (admin.site.urls)) 





现在 ,我 们 应 该 能 够 在 管理 面板 (地 址 为 http:/Wlocalhost:8000/admin/) 看 到 两 个 模型 及 
在 admin.py 文件 里 指定 的 、 要 在 管理 面板 显示 的 各 个 model 的 字段 ， 见 图 7.9: 















































Django administratior 
Site administration 
Groups #Add Change 
Users Add Change 
Movie datas Add Change 
User profiles Add Change 
图 7.9 

















PU EAE SE La API 终点 (endpoint) 检索 每 位 注册 用 户 数据 的 功能 ， 首先 需要 编 
写 serializers.py， 指 定 检索 UserProfile model 的 字段 : 








from books_recsys_app.models import UserProfile 
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from rest_framework import serializers 








class UsersSerializer (serializers.HyperlinkedModelSerializer) : 
class Meta: 
model = UserProfile 
fields = ('name', 'arrayratedmoviesindxs','lastrecs') 








比如 ， 我 们 想 采 集 用 户 打 过 分 的 电影 的 ID、 上 一 次 向 他 推荐 的 电影 DD。 然后 ,我们 在 
api.py 文件 编写 API， 如 下 所 示 : 














from rest_framework import generics 

from rest_framework.permissions import AllowAny 

from rest framework.pagination import PageNumberPagination 
from books recsys app.serializers import UsersSerializer 





from books recsys app.models import UserProfile 


class LargeResultsSetPagination (PageNumberPagination): 
page size - 1000 
page size query param = 'page size' 
max page size - 10000 


class UsersList (generics.ListAPIView): 





serializer class = UsersSerializer 


permission classes = (AllowAny, ) 





pagination class = LargeResultsSetPagination 


def get_queryset (self): 
query = self.request.query params.get 








if query('name'): 

return UserProfile.objects.filter(name-query('name')) 
else: 

return UserProfile.objects.all() 











我 们 也 许 只 想 查 询 特定 用 户 的 数据 ， 因 此 该 API 需要 支持 用 name 作为 查询 参数 。 编 
写 好 API 后 ， 我 们 再 在 urls.py 文件 设置 相应 的 URL: 





url(r'^users-list/',UsersList.as view(),name-'users-list') 


然后 ， 我 们 可 以 在 终端 用 curl 命令 调用 这 个 API 接口 : 





curl -X GET localhost:8000/users-list/ 
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我 们 还 可 以 用 swagger 接口 调用 这 个 API ELI, BEAT MA CUL 


7.9 小 结 















































本 章 , 我 们 介绍 了 如 何 用 Django 框架 搭建 电影 推荐 系统 。 学 完 本 章 , 对 于 如 何 用 Python 
语言 编写 用 机 器 学 习 算 法 驱动 的 、 专 业 的 Web 推荐 应 用 ， 你 应 该 具有 一 定 的 信心 了 。 

下 一 章 ， 也 就 是 本 书 的 最 后 一 章 ， 我 们 将 通过 另外 一 个 实例 一 一 搭建 Web 情感 分 析 系 
统 ， 加 深 你 对 如 何 高 效 地 运用 Python 语言 编写 Web 机 器 学 习 应 用 的 理解 。 


















































































































































第 8 章 
影评 情感 分 析 应 用 


























在 本 章 中 , 我 们 用 前 几 章 介绍 的 算法 和 方法 , 开发 一 套 能 够 判断 影评 情感 倾向 的 情感 分 析 
系统 。 我 们 还 将 用 Scrapy 库 ， 通 过 搜索 引擎 API (Bing 搜索 引擎 ) 从 不 同 的 网 站 采集 影评 数 
据 。 我 们 用 newspaper 库 或 预先 定义 好 的 HTML 页 面 抽取 规则 ， 从 影评 数据 抽取 影评 内 容 和 电 
影 名 称 。 我 们 用 朴素 贝 叶 斯 分 类 器 ， 以 包含 分 类 信息 最 多 〈 使 用 X 检测 ) 的 词语 作为 特征 ， 
得 到 每 条 影评 的 情感 倾向 ， 第 4 章 讲 过 该 方法 。 我 们 用 第 4 章 讲 过 的 PageRank 算法 ， 计 算 与 
每 个 电影 查询 词 相 关 的 网 页 次 序 。 本 章 将 讨论 影评 情感 分 析 应 用 的 代码 , 包括 Django 的 model 
和 view， 我 们 用 Scrapy 库 的 scraper 从 网 页 采集 影评 数据 。 我们 首先 给 出 Web 应 用 的 样 例 ， 解 
释 我 们 使 用 的 搜索 引擎 API 和 将 其 整合 到 应 用 的 方法 。 然 后 ， 讲 解 影评 的 采集 方法 : 将 Scrapy 
库 整 合 到 Django、 编写 存储 数据 的 model 和 管理 应 用 的 主要 命令 。 本 章 讨 论 的 这 些 代 码 均 已 放 
到 作者 的 GitHub 仓库 chapter 8 文件 夹 ， 地 址 为 https://github.com/ ai2010/machine learning - 


for the web/tree/master/chapter 8. 


8.1 影评 情感 分 析 应 用 用 法 简介 

































































































































































首页 展示 效果 见 图 8.1: 


Movie Sentiment 





lyZef — Home 


Movie Search on Bing 
(exact title) 
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如 果 用 户 想 知 道 影评 的 情感 倾向 和 相关 性 , 他 们 输入 电影 的 名 称 进行 查询 即 可 。 例如 ， 


图 8.2 显示 的 是 电影 Batman vs Superman Dawn of Justice" EYE! 





影评 情感 分 析 应 




















接 )。 我 们 
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青 感 分 析 结 果 : 














Movie Sentiment Analysis 
Reviews Classified : 18 
Positive Reviews : 15 
Negative Reviews : 3 


Sentiment Pie Chart. 


@ Positive 
4 Negative 





calculate page rank 


scrape and calculate page rank (may take a long time) 




















图 8.2 




















— 






























































8.3 HER 50 个 网 页 得 到 的 结果 )。 


我 们 像 之 前 那样 ， 启 动 Django 的 Web 服务 器 (第 6 章 和 第 7 章 ) 和 主 应 用 。 





新 建 一 个 文人 


























使 用 Scrapy EM Bing 搜索 引擎 采集 和 抽取 了 18 条 影评 ， 
影评 的 情感 倾向 〈15 条 积极 和 3 条 消极 倾向 )。 所 有 数据 月 
后 续 用 PageRank 算法 计算 每 个 页 面 与 查询 词 的 相关 性 〈 这 些 功 能 的 入 口 见 图 8.2 底部 的 链 
] PageRank 算法 得 到 图 8.3 结果 : 


图 8.3 所 示 为 与 影评 查询 词 最 相关 的 页 面 ， 我 们 将 扑 1 
(更 多 内 容 见 下 节 )。 请 注意 ， 如 想 获得 相关 性 较 高 的 网 页 ， 需 要 扑 取 成 干 上 万 个 网 页 (图 

















并 分 析 了 
H Django model 进行 存储 ， 便 于 




















的 疏 取 深度 这 一 参数 设置 为 2 




















首先 ， 























mkdir movie reviews analyzer app 


cd mov 


ie reviews analyzer app 


django-admin startproject webmining server 
python manage.py startapp startapp pages 





OBERE A 














为 《蝙蝠 侠 大 战 超 人 : 正义 黎明 》。 一 一 译 者 注 


F3€ movie reviews analyzer app 存储 代码 ， 然 后 初始 化 Django， 命 令 如 下 : 
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PageRank of movie reviews 
Url: http://indianexpress.com/photos/entertainment-gallery/batman-vs-superman-dawn-of-justice-movie-review-in-pics/ 
pagerank: 1.0 


Uri: http://timesofindia.indiatimes.com/entertainment/english/movie-reviews/Batman-v-Superman-Dawn-of-Justice/movie- 
review/51539160.cms pagerank: 1.0 


Urt: http://timesofindia.indiatimes.com/entertainment/english/movie-reviews/Batman-v-Superman-Dawn-of-Justice/movie- 
review/51539160.cms?tabtype=spoiler pagerank: 1.0 


Url: http://wabi.tv/2016/03/27/batman-v-superman-dawn-of-justice-movie-review/ pagerank: 1.0 
Uri: http://worldviewreviews.com/2016/03/26/batman-v-superman-review/ pagerank: 1.0 
Url: http://www.rottentomatoes.com/m/batman_v_superman_dawn_of_justice/ pagerank: 1.0 
Url: https://www.commonsensemedia.org/movie-reviews/batman-v-superman-dawn-of-justice pagerank: 1.0 
Urt: http://moviefloss.com/batman-vs-superman-dawn-of-justice-movie-review/ pagerank: 1.0 


Url: http://www.sakshipost.com/index.php?option=com_content&view=article&id=77578&catid=24&ltemid=178%20& 
pfrom=home-sakshi-post pagerank: 1.0 


Url: http://edition.cnn.com/2016/03/23/entertainment/batman-v-superman-review-thr-feat/ pagerank: 1.0 
Url: http://www.thereelword.net/batman-v-superman-dawn-of-justice-movie-review/ pagerank: 1.0 
Url: htto://www.roaerebert.com/reviews/batman-v-superman-dawn-of-iustice-2016 pagerank: 0.00335595495563 














图 8.3 
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接着 ， 在 settings.py 文件 里 做 好 各 项 配置 ， 见 6.1.2 节 和 7.1 节 均 讲 过 (当然 需要 注意 





pages 文件 夹 ) 文件 夹 〈 见 第 6 章 和 第 7 章 )， 因 为 这 些 功能 是 服务 器 的 通用 功能 ， 而 不 只 





的 是 ， 该 例 中 项 目的 名 称 为 webmining server 而 不 有 
情感 分 析 应 用 的 主 视图 文件 在 webmining server 文件 夹 , 而 不 像 之 前 那样 位 于 应 用 























HAE Server_movierecsys ) o 






































是 服务 于 特定 应 用 (pages MH). 
Web 服务 跑 起 来 之 前 ,最 后 一 项 操作 是 , 创建 超级 用 户 账号 ， 启动 Djagno 自 带 的 服务 器 : 





python manage.py createsuperuser (admin/admin) 


python manage.py runserver 




















CRI 





L1 


上 面 解 释 了 情感 分 析 应 用 的 整体 结构 ， 接 下 来 我 们 从 采集 URL 的 搜索 引擎 API 开始 ， 








更 为 详细 地 讨论 该 应 用 的 各 个 部 件 。 








8.2 搜索 引擎 的 选取 和 应 用 的 代码 


鉴于 直 











此 我 们 需要 












































系列 操作 简 述 如 下 : 





注册 https://datamarket.azure.com 网 站 。 











接 从 Google. Bing. Yahoo 等 搜索 引擎 抓 取 内 容 ， 违 反 了 它们 的 服务 条 球 ， 
J REST API (还 可 以 用 Crawlera http:Wcrawlera.comy/ 等 抓 取 服务 ) 3 
影评 页 面 。 我 们 最 终 决 定 使 用 Bing 提供 的 查询 服务 ， 它 每 月 免费 提供 5000 次 查询 。 


使 用 Bing 接口 之 前 ， 注 册 Microsoft Service， 获 取 key， 搜 索 时 需要 提供 该 key。 这 一 


E 获 取 一 些 
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在 My Account 栏目 ， 获 取 到 Primary Account Key。 

















注 个 新 应 用 (在 DEVELOPERS | REGISTER; 回调 地 址 Redirect URI 3 
https://www.bing.com ) 
然后 ， 编 写 函数 ， 检 索 与 查询 词 相关 的 网 页 ， 网 页 数量 可 根据 需要 自己 指定 : 


num_reviews = 30 






































def bing api (query): 





keyBing - API KEY # get Bing key from: https://datamarket. 
azure.com/account/keys 

credentialBing = 'Basic ' + (':$s' $ keyBing).encode('base64')[:- 
1] # the "-1" is to remove the trailing "Mn" which encode adds 

searchString = '%27X'+query.replace(" ",'+')+'movietreviewS27' 


top = 50#maximum allowed by Bing 


reviews_urls = [] 
if num_reviews<top: 
offset = 0 
url = 'https://api.datamarket.azure.com/Bing/Search/Web?' + \ 


'Query-$s&$top-$d&$skip-$d&$format-json' % 
(searchString, num_reviews, offset) 


request = urllib2.Request (url) 
request.add header('Authorization', credentialBing) 





requestOpener - urllib2.build opener() 





response = requestOpener.open (request) 
results = json.load (response) 
reviews urls = [ d['Url'] for d in results['d']['results']] 
else: 
nqueries = int(float (num_reviews) /top) +1 
for i in xrange (nqueries): 
offset - top*i 
if i--nqueries-1: 
top = num reviews-offset 
url = 'https://api.datamarket.azure.com/Bing/Search/ 
Web?' + \ 


9. 


'Query-$s&$top-$d&$skip-$d&$format-json' % 
(searchString, top, offset) 


request - urllib2.Request (url) 
request.add header('Authorization', credentialBing) 
requestOpener = urllib2.build opener() 








response = requestOpener.open (request) 
else: 
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top=50 
url = 


'https://api.datamarket.azure.com/Bing/Search/ 
Web?' + \ 


'Query-$s&$top-$d&$skip-$d&$format-json' % 
(searchString, top, offset) 


request = urllib2.Request (url) 
request.add header('Authorization', credentialBing) 


requestOpener = urllib2.build opener () 
respons 








= requestOpener. open (request) 
results = json.load (response) 
reviews urls += [ d['Url'] 


for d in results['d'] 
['results']] 


return reviews urls 

















参数 API KEY 的 值 是 从 Microsoft 账户 得 到 的 ，query 为 电影 名 称 字 符 串 ，num_reviews = 


30 为 Bing API 返回 的 URL 数量 。 拿 到 了 影评 的 URL， 我 们 接 下 来 就 来 编写 息 虫 ， 从 每 个 
页 面 抽取 电影 名 称 和 影评 。 
































8.3 Scrapy 的 配置 和 情感 分 析 应 用 代码 


























Python 库 Scrapy 是 用 来 抽取 网 页 内 容 或 候 取 给 定 网 页 链接 到 的 页 面 ( 更 多 内 容 见 第 
章 4.1.1 节 )。 如 未 安装 Scrapy， 在 终端 输入 以 下 命令 进行 安装 : 











di 
A 








sudo pip install Scrapy 

















T 





在 bin 目录 安装 可 执行 文件 : 


sudo easy install scrapy 





在 movie reviews analyzer app 目录 下 ， 初 始 化 Scrapy M H: 


scrapy startproject scrapy spider 





上 述 命 令 将 在 scrapy_spider 文件 夹 创建 以 下 目录 文件 树 : 
L— init .py 


上 一 一 items .PY 


I— pipelines.py 
|— settings.py 
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上 一 一 spiders 


pipelines.py 和 items.py 文件 管理 抓 取 到 的 数据 的 存储 和 处 理 方式 ， 稍 


上 六 一 init .py 

















后 我 们 会 在 8.3.4 














节 和 8.5 节 讨 论 这 两 个 文件 。 在 settings.py 文件 中 ， 我 们 设置 spiders 文件 夹 定义 的 每 只 网 

















We CRE) 的 参数 ， 蜂 蛛 将 按照 这 些 设 置 执行 爬 取 任务 。 下 面 两 节 ， 我 们 将 讨论 疏 取 应 




















8.3.1 











的 主要 参数 和 蜂 蛛 的 实现 。 


Scrapy 的 设置 





T settings.py 文件 设置 Scrapy 项 目的 每 只 蜂 蛛 爬 取 页 面 时 用 到 的 所 有 参数 。 主 要 参数 如 下 。 
DEPTH LIMIT: MEGRE, MÆ 1 个 URL 开始 , TE RIERA 7b Iz XU. 默认 为 0， 

















表示 没有 深度 限制 。 
LOG ENABLED: 执行 仆 取 时 ， 是 否 将 日 志 输 出 到 终端 ， 默 认为 





Z 


























True. 


ITEM _ PIPELINES = ('scrapy. spider.pipelines.ReviewPipeline': 1000,}: pipeline 函数 

















的 路 径 ， 该 函数 负责 处 理 从 网 页 抽取 出 来 的 数据 。 




















CONCURRENT ITEMS = 200: pipeline 中 并 行 处 理 的 item 的 数量 。 






































CONCURRENT REQUESTS = 5000: Scrapy 处 理 的 最 大 并 行 请 求 数 。 





CONCURRENT REQUESTS PER DOMAIN = 3000: Scrapy 处 到 
大 并 行 请 求 数 。 

















的 单个 域名 的 最 





深度 越 深 ， 怜 取 页 面 越 多 ， 疏 取 时 间 就 越 长 。 为 了 加 快 疏 取 速度 ， 上 面 最 后 三 个 参数 
可 以 使 用 较 大 的 值 。 我 们 的 应 用 (spiders 文件 夹 ) 使 用 两 只 蜘蛛 : 一 只 从 影评 URL 抽取 数 
据 (movie link resultspy)， 另 一 只 生成 所 有 链接 到 初始 影评 URL 


Crecursive_link_results.py). 































































































F 


8.3.2 Scraper 


movie link results.py 的 scraper 代码 如 下 : 


from newspaper import Article 


from urlparse import urlparse 


from scrapy.selector import Selector 





(D item, 

















于 存储 抓 取 数 据 的 简单 容器 。 详 见 官方 文档 https://doc.scrapy.org/en/latest/topics/items.html。 
































的 网 页 链接 图 





一 一 译 者 注 
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from scrapy import Spider 

from scrapy.spiders import BaseSpider,CrawlSpider, Rule 
from scrapy.http import Request 

from scrapy spider import settings 

from scrapy spider.items import PageItem,SearchItem 


unwanted domains - ['youtube.com','www.youtube.com'] 
from nltk.corpus import stopwords 
stopwords = set(stopwords.words('english')) 


def CheckQueryinReview (keywords ,title,content) : 

content list = map(lambda x:x.lower(),content.split(' ')) 
title list = map(lambda x:x.lower(),title.split(' ')) 
words = content list-ttitle list 
for k in keywords: 

if k in words: 

return True 

return False 


class Search (Spider): 
name = 'scrapy_spider_reviews' 


def init (self,url_list,search_key) :#specified by -a 
self.search_key = search_key 
self.keywords = [w.lower() for w in search_key.split(" ") if w 
not in stopwords] 
self.start_urls =url_list.split(',') 
super (Search, self). init (url list) 


def start requests (self): 
for url in self.start urls: 
yield Request(url-url, callback=self.parse_site,dont_ 
filter-True) 


def parse site(self, response): 
## Get the selector for xpath parsing or from newspaper 


def crop emptyel (arr): 
return [u for u in arr if u!=' '] 


domain = urlparse (response.url).hostname 
a = Article (response.url) 
a.download() 
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a.parse () 
title = a.title.encode('ascii','ignore') .replace('\n','') 
sel = Selector (response) 
if title==None: 
title = sel.xpath('//title/text()') .extract () 
if len(title)>0: 
title = title[0].encode('utf-8') .strip() . lower () 


content = a.text.encode('ascii','ignore') .replace('\n','') 
if content == None: 
content = 'none' 


if len(crop_emptyel (sel.xpath('//div//article//p/text()'). 
extract()))>1: 
contents = crop emptyel(sel.xpath('//div//article//p/ 
text()').extract()) 
print 'divarticle' 


elif len(crop emptyel(sel.xpath('/html/head/meta[G 
name="description"]/@content') .extract()))>0: 
contents = crop_emptyel (sel.xpath('/html/head/meta[@ 
name="description"]/@content') .extract() ) 
content = ' '.join([c.encode('utf-8') for c in contents]). 
strip().lower() 


#get search item 

search item = SearchItem.django model.objects.get(term-self. 
search key) 

#save item 

if not PageItem.django_model.objects.filter(url=response.url) . 
exists(): 

if len(content) > 0: 
if CheckQueryinReview (self.keywords,title,content): 
if domain not in unwanted domains: 
newpage = PageItem() 


newpage['searchterm'] = search item 
newpage['title'] - title 
newpage['content'] - content 
newpage['url'] - response.url 
newpage['depth'] = 0 
newpage['review'] = True 


#newpage. save () 
return newpage 
else: 
return null 
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由 代码 可 见 ，Search 类 继承 自 Scrapy 库 的 Spider X. 我 们 编写 了 以 下 方法 履 盖 原 有 的 
标准 方法 。 

e int _:; spider 的 构造 器 , 我 们 需要 定义 start. urls 列表 , 以 存储 待 抽取 影评 的 URL. 

此 外 ， 我 们 还 在 其 中 定义 了 search key 和 keywords 变量 ， 用 搜索 引擎 API 以 电影 

名 称 作 为 查询 词 查询 影评 数据 时 ， 将 会 用 到 这 些 信 息 。 

e start requests: 调用 spider 类 ， 将 触发 该 函数 ， 它 指定 对 start urls 列表 的 每 个 URL 

执行 什么 操作 ; 对 每 个 URL, 调用 我 们 自 定 义 的 parse. site 函数 (而 不 是 默认 的 parse 

函数 )。 

e parse site: 我 们 自 定义 的 函数 ， 用 来 解析 每 个 URL 所 对 应 页 面 的 数据 。 我 们 用 

newspaper Æ (sudo pip install newspaper) 抽取 电影 名 称 和 文本 内 容 ， 如 果 抽 取 失 

败 ， 我 们 直接 用 自 定义 的 规则 ， 解 析 HTML 文件 ， 避 免 抽 取 到 不 相关 的 标签 以 至 

于 引入 噪音 《每 条 规则 用 sel .xpath 命令 定义 )。 为 了 保证 自 定义 的 规则 能 达到 较 好 

的 抽取 效果 ， 我 们 选择 几 个 比较 知名 的 域名 (rottentomatoes、cnn 等 ) 做 实验 ， 确 

保 抽 取 方 法 能 从 这 些 网 站 抽取 内 容 (上 述 代码 没有 给 出 所 有 抽取 规则 , 更 多 规则 还 

青 参见 GitHub 仓库 代码 文件 )。 然 后 , 我 们 用 相应 的 Scrapy item 和 ReviewPipeline 

函数 〈 见 下 节 )， 将 抽取 到 的 数据 保存 到 Django model Pageltem "F. 


e CheckQueryinReview: 我 们 自 定 义 的 函数 ， 检 查 电 影 名 称 〈 来 自 查 询 词 ) 是 否 存在 
于 每 个 网 页 的 内 容 或 标题 。 


打开 终端 ， 进 入 scrapy spider 文件 夹 ， 输 入 以 下 命令 ， 启 动 蜂 蛛 : 
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scrapy crawl scrapy spider reviews -a url list-listname -a search 
key=keyname 


8.3.3 Pipeline 














Pipeline 定义 蜘蛛 抓 取 到 新 页 面 之 后 ， 对 它 进行 什么 操作 。 上 面 代码 的 parse site 函数 
Pageltem 对 象 ， 它 触发 以 下 Pipeline 对 象 (pipelines.py ): 























H 








返 





class ReviewPipeline (object) : 
def process_item(self, item, spider): 
dif spider.name == 'scrapy spider reviews':#not working 
item. save () 
return item 





该 类 保存 每 个 item (spider 术语 ， 表 示 一 个 新 的 页 面 )。 


14 SO 一 
8.3.4 MEH 


本 章 开 头 的 综述 部 分 提 到 过 ， 我 们 存储 了 影评 URL 所 有 链接 到 的 页 面 之 后 ， 再 用 
PageRank 算法 计算 影评 的 相关 性 。 扑 虫 recursive link results.py 执行 如 下 操作 : 
































#from scrapy.spider import Spider 

from scrapy.selector import Selector 

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 

from scrapy.http import Request 


from scrapy spider.items import PageItem,LinkItem, SearchItem 


class Search (CrawlSpider) : 
name = 'scrapy spider recursive' 


def init (self,url_list,search_id):#specified by -a 


#REMARK is allowed domains is not set then ALL are allowed!!! 
self.start urls = url list.split(',") 
self.search id - int(search id) 


#allow any link but the ones with different font 
size(repetitions) 
self.rules - ( 


Rule (LinkExtractor (allow=() ,deny=('fontSize=*','infoid=*','SortBy=*', 
),unique-True), callback-'parse item', follow=True) , 
) 


super(Search, self). init (url list) 


def parse item(self, response): 
sel = Selector (response) 


## Get meta info from website 
title = sel.xpath('//title/text()').extract() 
if len(title)>0: 

title = title[0] .encode('utf-8') 


contents = sel.xpath('/html/head/meta [@name="description"]/@ 
content') .extract () 


content = ' '.join([c.encode('utf-8') for c in contents]) .strip() 


fromurl = response.request.headers['Referer'] 





83 Scrapy 的 配置 和 情感 分 析 应 用 代码 195 











tourl = response.url 
depth = response.request.meta['depth'] 


#get search item 


search item = SearchItem.django model.objects.get(id-self.search id) 


#newpage 


if 


finish here 


not PageItem.django_model.objects.filter(url=tourl) .exists(): 
newpage = PageItem() 

newpage['searchterm'] = search_item 

newpage['title'] = title 

newpage['content'] = content 

newpage['url'] = tourl 

newpage['depth'] = depth 

newpage.save()#cant use pipeline cause the execution can 


#get from_id,to_id 

from page = PageItem.django model.objects.get(url-fromurl) 
from id = from page.id 

to page = Pageltem.django model.objects.get(url-tourl) 

to id - to page.id 


#newlink 


if 


not LinkItem.django model.objects.filter(from id-from id). 


filter(to id-to id).exists(): 


Search 类 继承 自 Scrapy 库 的 CrawlSpider 类 。 我 们 编写 了 下 面 两 个 标准 方法 ， 禾 盖 原 


newlink = LinkItem() 
newlink['searchterm'] = search item 
newlink['from_id'] = from_id 
newlink['to_id'] = to_id 

newlink. save () 





















































来 的 标准 方法 〈 同 前 面 的 Spider 25). 


e int : 














Search 类 的 构造 器 。start_urls SAGA EFSER URL， 在 达到 我 们 为 























参数 DEPTH LIMIT 设 定 的 值 之 前 , fem URL 4} FER. 参数 rules 设置 允 
许 / 拒 绝 爬 取 的 URL 类 型 〈 该 例 ， 字 体 大 小 不 同 ， 但 内 容 相同 的 页 面 不 重复 爬 取 )。 








我 们 还 要 
































$ 





定义 处 理 每 个 抓 取 到 的 页 面 的 函数 Cparse_item). 我们 还 定义 了 search id 




















Qe, 以 

















便 在 其 他 数据 中 存储 查询 的 TD. 











e parse item: 自 定 义 的 函数 ， 将 每 个 检索 到 的 网 页 的 重要 数据 存储 下 来 。 为 每 个 页 
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面 创建 一 个 Django Page model 〈 见 下 节 )， 它 存储 电影 名 称 和 影评 内 容 〈 用 xpath 
HTML 解析 器 )。 为 了 执行 PageRank 算法 ， 每 个 网 页 链接 到 的 页 面 和 每 个 网 页 的 
ID， 用 相应 的 Scrapy item 保存 为 Link model〈 见 后 面 几 节 )。 


打开 终端 ， 进 入 scrapy spider WFK, MAATRE, MIER: 


















































scrapy crawl scrapy_spider_recursive -a url_list=listname -a search_ 
id=keyname 


8.4 Django model 




















E c e S EUST ie EIB ee. TE Django P, ZU ERIR model, Œ models.py 
文件 里 定义 〈 位 于 pages 文件 夹 )。 请 在 models.py 文件 里 输入 以 下 代码 : 












































from django.db import models 
from django.conf import settings 
from django.utils.translation import ugettext_lazy as _ 


class SearchTerm(models Model): 
term = models.CharField( ('search'), max length-255) 
num reviews = models.IntegerField(null-True,default-0) 
#display term on admin panel 
def | unicode (self): 
return self.term 


class Page (models.Model): 

searchterm = models.ForeignKey (SearchTerm, related name-'pages',null 
-True,blank-True) 

url = models.URLField( ('url'), default='', blank-True) 

title = models.CharField( ('name'), max length-255) 

depth - models.IntegerField(null-True,default--1) 

html = models.TextField( ('html'),blank-True, default='') 

review = models.BooleanField (default-False) 

old rank = models.FloatField(null-True,default-0) 

new rank - models.FloatField(null-True,default-1) 

content = models.TextField( ('content'),blank-True, default='') 


sentiment = models.IntegerField(null-True,default-100) 


class Link (models.Model): 
searchterm = models.ForeignKey (SearchTerm, related name-'links',null 


8.5 整合 Django fü Scrapy 197 


=True ,blank=True) 
from id = models. IntegerField (null-True) 
to id = models. IntegerField (null-True) 

















用 户 在 影评 情感 分 析 应 用 的 首页 输入 的 每 个 电影 名 称 存储 在 SearchTerm model 中 ， 
个 网 页 的 数据 存储 在 Page model 中 。 除 了 记录 存储 内 容 的 字段 HTML、 电影 名 称 、URL 
和 影评 内 容 )， 还 记录 影评 的 情感 倾向 和 链接 图 网 络 的 深度 《此 外 ,我们 还 用 一 个 布尔 值 表 
示 网 页 是 影评 页 面 还 是 一 个 简单 的 、 带 外 链 的 页 面 )。Link model 存储 页 面 之 间 的 链接 关系 ， 
PageRank 算法 用 它 计算 影评 页 面 之 间 的 相关 性 。 Page model 和 Link model 均 通 过 外 键 指向 
相应 的 SearchTerm。 照 旧 执行 以 下 命令 ， 按 照 model 生成 数据 表 : 






































































































































python manage.py makemigrations 
python manage.py migrate 


























为 了 填充 这 些 Django model， 我 们 需要 实现 Scrapy 和 Django 之 间 的 交互 ， 有 具体 方法 
下 一 节 讲 。 


8.5 整合 Django 和 Scrapy 


我 们 为 了 保持 路 径 的 简洁 ， 便 于 调用 ， 删 除了 scrapy_spider 文件 夹 。 因 此 ， 在 
movie reviews analyzer app “fF, webmining server 文件 夹 跟 scrapy. spider 文件 夹 位 
于 同一 层级 : 














上 六 一 db.sqlite3 
上 一 scrapy.cfg 

上 六 一 scrapy spider 
| pi 

| — spiders 
| | 


L—— webmining server 


在 Scrapy 的 settings.py 文件 里 设置 Django 的 路 径 : 





# Setting up django's project full path. 

import sys 

sys.path.insert(0, BASE_DIR+'/webmining_server') 

# Setting up django's settings module name. 
os.environ['DJANGO SETTINGS MODULE'] = 'webmining server.settings' 
#import django to load models (otherwise AppRegistryNotReady: Models 
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aren't loaded yet): 
import django 
django. setup () 

















为 了 实现 从 Scrapy 管理 Django， 我 们 需要 安装 下 面 这 个 库 : 





sudo pip install scrapy-djangoitem 





在 items.py 文件 ， 编 写 Django model 和 Scrapy 之 间 的 对 接 方 式 : 


from scrapy djangoitem import DjangoItem 
from pages.models import Page,Link,SearchTerm 


class SearchItem(DjangoItem) : 
django_model = SearchTerm 

class PageItem(DjangoItem) : 
django_model = Page 

class LinkItem(DjangoItem) : 
django_model = Link 





上 述 代码 ， 每 个 类 继承 自 Djangoltem 类 ， 因 此 它们 自动 跟 用 django_model 变量 声明 的 、 
原始 的 Django model 联系 起 来 。Scrapy 项 目 至 此 告 一 段落 ，Scrapy 抓 取 来 的 数据 如 何 处 理 ， 
我 们 还 没 讲 。 我 们 接 下 来 继续 讨论 处 理 数 据 用 到 的 Django 代码 和 管理 应 用 的 Django 命令 。 


8.5.1 命令 (情感 分 析 模 型 和 删除 查询 结 末 ) 
该 应 用 需要 管理 一 些 操作 ， 这 些 操作 不 允许 普通 用 户 执行 ， 例 如 定义 情感 分 析 模型 、 


删除 电影 查询 结果 ， 以 便 重 新 进行 计算 ， 而 不 是 从 内 存 检索 现 有 数据 。 下 面 几 节 ， 我 们 将 
解释 如 何 实现 执行 这 些 操 作 的 命令 。 


8.5.2 ”情感 分 析 模 型 加 载 需 


该 应 用 的 最 终 目标 是 ， 判 断 影评 的 情感 倾向 〈 积 极 或 消极 )。 为 了 实现 这 一 目标 ， 
必须 使 用 外 部 数据 搭建 情感 分 析 器 ， 然 后 将 其 存储 在 内 存 〈 缓 存 ) 供 每 次 查询 使 用 ， 这 正 


是 load sentimentclassifier.py 命令 要 完成 的 操作 : 













































































































































































































































































import nltk.classify.util, nltk.metrics 

from nltk.classify import NaiveBayesClassifier 
from nltk.corpus import movie reviews 

from nltk.corpus import stopwords 
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from nltk.collocations import BigramCollocationFinder 

from nltk.metrics import BigramAssocMeasures 

from nltk.probability import FreqDist, ConditionalFreqDist 

import collections 

from django.core.management.base import BaseCommand, CommandError 
from optparse import make option 

from django.core.cache import cache 


stopwords = set(stopwords.words('english')) 
method selfeatures = 'best words features' 


class Command (BaseCommand) : 
option_list = BaseCommand.option_list + ( 
make_option('-n', '--num_bestwords', 
dest='num_bestwords', type='int', 
action='store', 
help=('number of words with high 


information')),) 


def handle(self, *args, **options): 
num bestwords - options['num bestwords'] 
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self.bestwords = self.GetHighInformationWordsChi (num bestwords) 


clf = self.train clf (method selfeatures) 
cache.set('clf',clf) 
cache.set('bestwords',self.bestwords) 














文件 开始 , method selfeatures 变量 设置 特征 选择 方法 (该 例 用 影评 中 的 词语 作为 特征 ; 
























































def train clf (method): 
negidxs = movie reviews.fileids('neg'!) 


posidxs = movie reviews.fileids('pos') 
if method=='stopword filtered words features': 
negfeatures = [(stopword filtered words features (movie 
reviews.words(fileids-[file])), 'neg') for file in negidxs] 
posfeatures = [(stopword filtered words features (movie 
reviews.words(fileids-[file])), 'pos') for file in posidxs] 
elif method--'best words features': 
negfeatures = [(best words features (movie reviews. 
words (fileids-[file])), 'neg') for file in negidxs] 


更 多 细节 见 第 4 章 )， 用 选择 的 特征 训练 分 类 器 train clf.. BA num bestwords 表示 最 佳 词 
语 (特征 ) 的 最 大 数量 。 然 后 ， 将 分 类 器 和 最 佳 特征 〈bestwords) 存储 到 缓存 ， 便 于 情感 
分 析 应 用 使 用 (用 cache 模块 )。 分 类 器 和 选择 最 佳 词语 (特征 ) 的 方法 如 下 所 示 : 
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posfeatures = [(best words features (movie reviews. 
words (fileids-[file])), 'pos') for file in posidxs] 
elif method--'best bigrams words features': 


negfeatures = [(best bigrams words features (movie reviews. 
words (fileids-[file])), 'neg') for file in negidxs] 
posfeatures = [(best bigrams words features (movie reviews. 


words (fileids-[file])), 'pos') for file in posidxs] 


trainfeatures = negfeatures + posfeatures 
clf = NaiveBayesClassifier.train(trainfeatures) 
return clf 


def stopword filtered words features (self,words) : 
return dict([(word, True) for word in words if word not in 
stopwords] ) 


#eliminate Low Information Features 

def GetHighInformationWordsChi (self ,num_bestwords) : 
word fd = FreqDist() 
label word fd = ConditionalFreqDist () 


for word in movie reviews.words(categories-['pos']): 
word fd[word.lower()] +=1 
label word fd['pos'][word.lower()] +=1 


for word in movie reviews.words(categories-['neg']): 
word fd[word.lower()] +=1 
label word fd['neg'][word.lower()] +=1 


pos word count - label word fd['pos'].N() 
neg word count - label word fd['neg'].N() 
total word count = pos word count + neg word count 


word scores = {} 
for word, freq in word fd.iteritems(): 
pos score - BigramAssocMeasures.chi sq(label word fd['pos'] 
[word], 
(freq, pos word count), total word count) 
neg score - BigramAssocMeasures.chi sq(label word fd['neg'] 
[word], 
(freq, neg word count), total word count) 
word scores[word] = pos score + neg score 


best = sorted(word scores.iteritems(), key-lambda (w,s): s, 
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reverse=True) [:num bestwords] 
bestwords - set([w for w, s in best]) 
return bestwords 


def best words features (self,words): 
return dict([(word, True) for word in words if word in self. 


bestwords]) 


def best bigrams word features (self,words, 
measure-BigramAssocMeasures.chi sq, nbigrams-200): 
bigram finder = BigramCollocationFinder.from words (words) 
bigrams = bigram finder.nbest(measure, nbigrams) 
d = dict([(bigram, True) for bigram in bigrams] ) 
d.update (best words features (words) ) 


return d 


上 述 代码 实现 了 三 种 选择 最 佳 词语 的 方法 。 
e stopword filtered words features: 用 NLTK (自然 语言 处 理工 具 集 ) 的 停 用 词 表 ， 
删除 停 用 词 ， 将 剩余 单词 作为 最 相关 词语 。 


e best words features: 用 系 检 验方 法 (ONLIK FE) 选择 与 积极 影评 或 消极 影评 最 相 
关 的 词语 (更 多 细节 见 第 4 章 )。 
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e best bigrams word features: H X^ RADE (NLTK Æ) 从 词语 组 合 中 ， 选 择 信息 
量 最 大 的 前 200 个 二 元 组 (更 多 细节 见 第 4 章 )。 

我 们 用 朴素 贝 叶 斯 分 类 器 〈 见 第 3 章 ) 和 NLTK.corpus 的 movie reviews 已 标注 的 文本 
《积极 、 消 极 情感 ) 作为 训练 语 料 。 语 料 的 下 载 方法 是 ， 打 开 Python shell， 输 入 以 下 代码 
从 corpus 下 载 movie reviews 数据 : 





四 























nltk.download()--» corpora/movie reviews corpus^ 


8.5.3 ”删除 已 执行 过 的 查询 


由 于 我 们 可 以 定义 不 同 的 参数 (比如 特征 选择 方法 、 最 佳 词语 的 数量 等 ), 我 们 也 许 想 



































(D HE Python shell 执行 nltk.download0 命 令 ( 如 果 还 没有 安装 nltk, 请 在 终端 输入 pip install nltk 安装 nltk 库 )。 在 打开 的 NLTK 
Downloader 窗口 的 Corpora 选项 卡 下 选中 movie reviews， 单 击 窗 口 左下 方 的 Download 按钮 下 载 。 笔 者 执行 完 nltk.download() 


命令 后 ， 显 示 movie reviews 已 安装 ， 即 Status 栏 显示 “installed”。 一 一 译 者 注 
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用 不 同 的 参数 值 ， 再 次 分 析 影 评 和 存储 分 析 结 果 。 这 时 就 要 用 到 delete_query 命令 ， 代 码 
如 下 : 














from pages.models import Link,Page,SearchTerm 
from django.core.management .base import BaseCommand, CommandError 
from optparse import make option 


class Command (BaseCommand) : 
option_list = BaseCommand.option_list + ( 
make option('-s', '--searchid', 
dest-'searchid', type='int', 
action='store', 
help=('id of the search term to delete')),) 


def handle (self, *args, **options) : 
searchid - options['searchid'] 
if searchid -- None: 
print "please specify searchid: python manage.py 


--searchid---" 
#list 
for sobj in SearchTerm.objects.all(): 
print 'id:',sobj.id," term:",sobj.term 
else: 


print 'delete...' 

search obj - SearchTerm.objects.get(id-searchid) 
pages = search obj.pages.all() 

pages.delete () 

links = search obj.links.all() 

links.delete () 

search_obj.delete () 





如 果 运 行 上 述 命令 时 没有 指定 searchid (查询 词 的 有 D)， 将 显示 所 有 的 查询 词 及 其 ID. 
我 们 可 以 使 用 下 面 命令 指定 查询 词 并 删除 : 

















python manage.py delete_query --searchid=VALUE 





























我 们 可 以 使 用 缓存 的 情感 分 析 模 型 向 用 户 展 示 给 定 电影 的 情感 倾向 ， 详 见 下 一 节 。 
85.4 影评 情感 分 析 器 一 一 Django view 和 HTML 代码 











本 章 讨论 的 大 多 数 代 码 〈 命 令 、Bing 搜索 引擎 、Scrapy 和 Django model) 是 views.py 
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文件 analyzer 函数 的 代码 ， 它 们 驱动 我 们 在 8.1 节 展 示 的 首页 〈 在 urls.py 文件 指定 首页 的 


URL 为 (r'^$','webmining server.views.analyzer') ): 


def analyzer (request): 
context = {} 


if request.method == 'POST': 
post data = request. POST 
query = post_data.get('query', None) 
if query: 
return redirect('$s?$s' $ (reverse('webmining server.views. 
analyzer'), 
urllib.urlencode(('q': query)))) 
elif request.method -- 'GET': 
get data = request.GET 
query - get data.get('q') 
if not query: 
return render to response( 
'movie reviews/home.html', RequestContext (request, 
context)) 


context['query'] = query 
stripped query - query.strip().lower() 
urls = [] 


if test mode: 

urls = parse bing results() 
else: 

urls - bing api(stripped query) 


if len(urls)-- 
return render to response( 
'movie reviews/noreviewsfound.html', 
RequestContext(request, context)) 
if not SearchTerm.objects.filter(term-zstripped query).exists(): 
S = SearchTerm(term-stripped query) 


s.save() 
try: 
#scrape 
cmd = 'cd ../scrapy spider & scrapy crawl scrapy spider 
reviews -a url list-$s -a search key-$s' %('\"'+str(','.join(urls[:num_ 
reviews]) .encode('utf£-8'))+'\"','\"'+str (stripped query)+'\"') 


os . system (cmd) 
except: 
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print 'error!' 
s.delete () 
else: 
#collect the pages already scraped 
S = SearchTerm.objects.get (term=stripped_query) 


#calc num pages 
pages = s.pages.all().filter(review-True) 
if len(pages) -- 
s.delete() 
return render to response( 
'movie reviews/noreviewsfound.html', 
RequestContext(request, context)) 


s.num reviews - len(pages) 
s.save() 


context['searchterm id'] - int(s.id) 


#train classifier with nltk 
def train clf (method): 


def stopword filtered words features (words): 


#Eliminate Low Information Features 
def GetHighInformationWordsChi (num bestwords): 


bestwords - cache.get('bestwords') 
if bestwords -- None: 

bestwords - GetHighInformationWordsChi (num bestwords) 
def best words features (words): 


def best bigrams words features (words, 
measure-BigramAssocMeasures.chi sq, nbigrams-200): 


clf = cache.get('clf') 
if clf == None: 
clf = train clf (method selfeatures) 


0 
cntneg = 0 
for p in pages: 
words = p.content.split(" ") 


cntpos 
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feats = best_words_features (words) #bigram_word_ 
features (words) #stopword_filtered_word_feats (words) 

#print feats 

str_sent = clf.classify (feats) 


if str_sent == 'pos': 
p.sentiment = 1 
cntpos +=1 
else: 
p.sentiment = -1 
cntneg +=1 
p.save() 
context['reviews classified'] - len(pages) 
context['positive count'] - cntpos 
context['negative count'] - cntneg 
context['classified information'] - True 


return render to response( 
'movie reviews/home.html', RequestContext(request, context)) 


























集 影评 的 URL。 接 着 调用 Scrapy， 对 影评 URL 执行 抓 取 操作 ， 找 到 影评 的 文本 内 容 ， 
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的 谷歌 饼 图 代码 生成 饼 图 : 

















<h2 align = Center>Movie Reviews Sentiment Analysis</h2> 

<div class="row"> 

<p align = Center><strong>Reviews Classified : {{ reviews_ 
classified }}</strong></p> 


<p align = Center><strong>Positive Reviews : {{ positive count 
} }</strong></p> 
<p align = Center><strong> Negative Reviews : {{ negative_ 


count }}</strong></p> 
</div> 
<section> 
<script type-"text/javascript" src="https://www.google.com/ 
jsapi"></script> 
<script type="text/javascript"> 
google.load("visualization", "1", {packages: ["corechart"] }); 
google.setOnLoadCallback (drawChart) ; 





用 户 输入 的 电影 名 称 先 存储 到 query 变量 ， 然 后 程序 将 其 发 送 给 bing api 函数 ， 去 


后 用 从 缓存 检索 到 的 clf 分 类 器 模型 和 选 定 的 信息 量 最 大 的 词语 Cbestwords) 执行 分 类 《如 
果 绥 存 为 室 ， 同 一 模型 将 再 生成 一 次 )。 影 评 的 情感 倾向 预测 结果 (positive_counts、 
negative counts 和 reviews classified) 发 送 给 home.html (templates XFX). fi Vif HJ. F Tf 
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function drawChart () 


var data = google.visualization.arrayToDataTable([ 


['Sentiment', 'Number'], 








['Positive', ( positive count } 
['Negative', ( negative count } 
1); 
var options - ( title: 'Sentiment Pi 


bl, 
}] 


Chart'}; 


var chart = new google.visualization.PieChart (document. 





getElementById('piechart')); 
chart.draw(data, options); 
} 
</script> 


<p align ="Center" id="piechart" style="width: 900px; height: 





500px;display: block; margin: 0 auto;text-align: 
</div> 


center;" ></p> 


函数 drawChart 调用 谷歌 的 可 视 化 函数 PieChart, 该 函数 接收 数据 (积极 和 消极 影评 的 





























Pag 


E), AE ROE. HTML 代码 和 Django view 交互 方式 的 更 多 细节 ， 见 6.2.2 节 。 首 页 展 
示 影 评 的 情感 倾向 统计 结果 ( 见 8.1 节 )， 首 页 下 方 的 两 个 链接 可 计算 抓 取 到 影评 的 














eRank 值 ， 该 功能 背后 的 代码 下 节 讨 论 。 
































8.6 PageRank: Django view 和 算法 实现 


FF o 
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from pages.models import Page,SearchTerm 


num iterations - 100000 
eps-0.0001 
D = 0.85 


def pgrank(searchid): 
s = SearchTerm.objects.get(id-int (searchid) ) 
links = s.links.all() 
from_idxs = [i.from_id for i in links ] 
# Find the idxs that receive page rank 
links_received = [] 








我 们 在 情感 分 析 应 用 中 实现 了 PageRank 算法 〈4.1.3 节 ) 为 线 上 影评 的 重要 性 排 
pgrank.py 文件 位 于 webmining server/pgrank XFX, “ESCH [f PageRank 算法 ， 
马 如 下 : 
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to idxs - [] 
for 1 in links: 
from id = l.from id 
to id - l.to id 
if from id not in from idxs: continue 
if to id not in from idxs: continue 
links received.append([from id,to id]) 
if to id not in to idxs: to idxs.append(to id) 


pages = s.pages.all() 

prev ranks - dict() 

for node in from idxs: 
ptmp - Page.objects.get(id-node) 
prev ranks[node] - ptmp.old rank 


conv=1. 
cnt=0 
while conv>eps or cnt<num_iterations: 
next ranks = dict() 
total = 0.0 
for (node,old rank) in prev ranks.items(): 
total += old rank 
next ranks[node] = 0.0 


#find the outbound links and send the pagerank down to each of 


them 


for (node, old rank) in prev ranks.items(): 
give idxs - [] 
for (from id, to id) in links received: 
if from id != node: continue 
if to id not in to idxs: continue 
give idxs.append(to id) 
if (len(give idxs) < 1): continue 
amount = D*old rank/len(give idxs) 
for id in give idxs: 
next ranks[id] += amount 
tot = 0 
for (node,next rank) in next ranks.items(): 
tot += next rank 
const = (1-D)/ len(next ranks) 


for node in next ranks: 
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for 


for 


next_ranks [node] += const 


tot = 0 
for (node,old rank) in next ranks.items(): 
tot += next rank 


difftot = 0 

for (node, old rank) in prev ranks.items(): 
new rank = next ranks [node] 
diff = abs(old rank-new rank) 
difftot += diff 

conv- difftot/len(prev ranks) 

cnt+=1 

prev_ranks = next_ranks 


(id,new_rank) in next ranks.items(): 
ptmp - Page.objects.get(id-id) 
url = ptmp.url 


(id,new rank) in next ranks.items(): 
ptmp - Page.objects.get(id-id) 
ptmp.old rank - ptmp.new rank 
ptmp.new rank = new rank 

ptmp. save () 

















上 述 代码 取 到 给 定 SearchItem 对 象 对 应 的 所 有 链接 ， 实 现 了 计算 上 时 刻 网 页 i 的 
PageRank 值 的 方法 ，P(i) 通 过 递归 求解 下 式 得 到 : 





否则 "为 0。 














N 
+D A,P(j),, Vil N 


j=l 


PQ), = 





(1- D) 
N 


1 











其 中 ,NN 是 总 页 面 的 数量 ， 如 果 网 页 指向 网 页 i A, = 二 (Nj 为 网 页 的 外 链 数 ); 


J 








参数 D 为 所 谓 的 阻尼 系数 “上述 代码 将 其 设置 为 0.85)， 表 示 按 照 转 移 矩 阵 A 


























进行 转移 的 概率 。 以 迭代 的 方式 计算 上 述 等 式 ， 直 到 收敛 参数 《convergence parameter) eps 





ifi EE NGA BI GAGE RRL num iterations。 首 页 影评 情感 分 析 结 果 展 示 完 成 后 ， 单 击 首 



















































































页 下 方 的 “scrape and calculate page rank (may take a long time)” ^5 edite page rank” © 














可 调用 该 算法 。 














这 两 个 链接 指向 views.py 文件 的 pgrank view 函数 (通过 urls.py 文件 的 





© 原文 为 “Nis 0”， 实 系 错误 。 一 一 译 者 注 
© 意思 是 抓 取 和 计算 PageRank 值 (也许 需 要 较 长 时 间 ) 。 一 一 译 者 注 
© 意思 是 计算 PageRank 值 。 一 一 译 者 注 
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url(r’pg-rank/(?P\d+)/','webmining_server.views.pgrank_view', name-'pgrank view")): 


def pgrank view(request,pk): 
context = {} 
get_data = request.GET 
scrape = get_data.get('scrape','False') 
S = SearchTerm.objects.get(id-pk) 


if scrape -- 'True': 
pages = s.pages.all().filter(review-True) 
urls - [] 
for u in pages: 


urls.append (u.url) 


#crawl 
cmd = 'cd ../scrapy_spider & scrapy crawl scrapy spider recursive 
-a url list-$s -a search id-$s' %('\"'+str(','.join(urls[:]) .encode('utf- 


8'))*'N"'," N''-str(pk)t'N"") 
os.system(cmd) 


links = s.links.all() 

if len(links) == 
context['no links'] = True 
return render to response( 


'movie reviews/pg-rank.html', RequestContext (request, 
context)) 


#calc pgranks 
pgrank (pk) 
#load pgranks in descending order of pagerank 


pages ordered = s.pages.all().filter(review-True).order by('-new 
rank') 


context['pages'] = pages ordered 


return render to response( 


'movie reviews/pg-rank.html', RequestContext (request, context)) 








上 述 代 码 调用 爬虫 ， 采 集 影 评 链接 到 的 网 页 ， 用 我 们 刚刚 讨论 的 代码 计算 PageRank 
值 。 然 后 ， 将 PageRank 值 展示 到 pg-rank.html 页 面 ( 按 PageRank 值 降 序 排列 )， 见 8.1 节 。 
因为 这 个 函数 处 理 数据 时 间 较 长 ( 扑 取 成 千 上 万 个 页 面 )， 我 们 编写 run scrapelinks.py 命令 ， 
运行 Scrapy 爬虫 《欢迎 读者 将 其 作为 练习 ， 自 行 阅读 或 修改 这 段 代 码 )。 
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8.7 管理 后 台 


影评 情感 分 析 应 用 


和 AP | 














本 章 最 后 一 部 分 
该 情感 分 析 应 用 的 相关 数据 ， 


I 











from django.contrib import admin 





， 我 们 简要 介绍 model 可 能 的 后 台 管 理 操作 和 API 实现 方法 ， 以 便 检 











我 们 可 以 在 admin.py 文件 设置 两 个 管理 界面 ， 
SearchTerm 和 Page model 的 数据 : 

















以 便 查 看 





from django markdown.admin import MarkdownField, AdminMarkdownWidget 


from pages.models import SearchTerm, Page, Link 


class SearchTermAdmin (admin .ModelAdmin) : 
formfield_overrides = {MarkdownField: 

AdminMarkdownWidget } } 
list_display = ['id', 

[ian 


{'widget': 
'term', 'num reviews'] 
ordering - 


class PageAdmin (admin.ModelAdmin): 
formfield overrides - (MarkdownField: 

AdminMarkdownWidget } } 
list_display = ['id', 

['-id' 


('widget': 


'searchterm', 
,'-new rank'] 


'url', 
ordering - 


admin.site.register (SearchTerm,SearchTermAdmin) 
admin.site.register (Page, PageAdmin) 
admin.site.register (Link) 


'title', 


'content'] 


SearchTermAdmin 和 PageAdmin 类 按照 ID 升序 展示 对 象 (PageAdmin 同时 按照 








new rank 排序 )。Page model 后 台 管 理 界面 见 图 8.4: 














Django administration 


Welcome, admin. Change password / Log out 
































Select page to change Cr 
a 9o 
中 Searchterm Un Name Content 
4893 batman vs superman dawn of justice http://www joblo<om/hollywood-celebrities gossip tgifs-a-salute-to-butts~ The most horrible time of the year has finally arrived... Halloween! 
orroe-movies- 326 t Time to start smashing carving 
4892 batmanvs superman dawn of justice http / /www Joblo.com/hollywood-celebrities/gossip/botb-cioverfleld-jessica | didn't know what to expect with last week's Battle but it appears 
lukas-vs-Vzzy-caplan-vi-odette-yustman. 361 you afl hues EPOR ODHIORE 
4891 batman vs superman down of justice http://www oblo com /bellywood -celebrities gossip] botb vetodeus-babes Last week was a very close bai, Indeed. I pever would have 
ariana-grande-vs-elizabeth-gilies-vs-victora-justice thought that you would be s 
ance vs 
Elizabeth Gillies vs 
Victoria justice 
Hobywood Gossip 
| Movieotties 
490 batman vs superman dawn of justice Mtp: hollywood -tiebrites/gossip/tgifs-the-most-gif-worthy- TGFs: The Top — T thing of the past now. but if there's one 
moments ol 2014-266 Ten Most thing weve become uted to 
2f Worth 
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我 们 将 Link model 也 添加 到 管理 后 台 (admin.site.register(Link))， 当 然 这 不 是 必须 的 。 


除了 启用 管理 后 台 ， 更 有 趣 的 是 ， 我 们 可 以 设置 API 终点 ， 实 现 用 电影 名 称 检索 电影 情感 
分 析 结 果 的 功能 。 在 pages 文件 夹 api.py 文件 中 ， 编 写 如 下 代码 : 







































































from rest_framework import views,generics 

from rest_framework.permissions import AllowAny 

from rest_framework.response import Response 

from rest_framework.pagination import PageNumberPagination 
from pages.serializers import SearchTermSerializer 

from pages.models import SearchTerm, Page 


class LargeResultsSetPagination (PageNumberPagination) : 
page_size = 1000 
page size query param = 'page size' 
max page size - 10000 


class SearchTermsList (generics.ListAPIView) : 


serializer class = SearchTermSerializer 
permission classes = (AllowAny,) 
pagination class - LargeResultsSetPagination 


def get queryset (self): 
return SearchTerm.objects.all() 


class PageCounts (views.APIView): 


permission classes - (AllowAny,) 
def get(self,*args, **kwargs): 
searchid=self.kwargs['pk'] 
reviewpages = Page.objects. filter (searchterm=searchid) . 
filter (review=True) 
npos = len([p for p in reviewpages if p.sentiment==1] ) 
nneg = len(reviewpages) -npos 
return Response ({'npos':npos, 'nneg' :nneg}) 














H 





PageCounts 类 以 要 搜索 的 ID〈 电 影 名 称 ) 作为 参数 ， 返 回电 影 的 情感 分 析 结果 : 积极 
影评 和 消极 影评 的 数量 。 要 获取 电影 名 称 的 SearchTerm ID， 你 可 以 从 管理 后 台 查 找 或 使 用 
API 终点 SearchTermsList; 该 API 返回 电影 名 称 列表 及 相应 的 ID 。 我 们 在 serializers.py 文 
件 设置 序列 化 工具 serializer: 
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from pages.models import SearchTerm 
from rest_framework import serializers 


class SearchTermSerializer(serializers.HyperlinkedModelSerializer): 
class Meta: 
model = SearchTerm 
fields = ('id', 'term') 




















要 调用 这 些 API 端点 , 我 们 可 以 再 次 使 用 swagger 接口 〈 见 第 6 章 ) 或 在 终端 使 用 curl 























例如 : 


curl -X GET localhost:8000/search-list/ 
{"count":7,"next":null,"previous":null,"results": [{"id":24,"term":"the ma 
rtian"},{"id":27,"term":"steve jobs"},{"id":29,"term":"suffragette"},{"i 
d":39,"term":"southpaw"},{"id":40,"term":"vacation"},{"id":67,"term": "the 
revenant"},{"id":68,"term":"batman vs superman dawn of justice"}] } 


和 


curl -X GET localhost:8000/pages-sentiment/68/ 
{"nneg":3,"npos":15} 























本 章 介 绍 了 影评 情感 分 析 Web 应 用 的 实现 方法 ， 帮 助 你 熟悉 了 我 们 在 第 3 章 、 第 4 章 
和 第 6 章 学 到 的 一 些 算法 和 库 。 

我 们 的 旅程 即将 结束 : 通过 阅读 本 书 ， 运 行 我 们 提供 的 代码 ， 你 应 该 已 经 掌握 大 量 
今 商 业 环 境 所 使 用 的 、 最 为 重要 的 机 器 学 习 算 法 知识 。 

你 应 该 已 经 能 够 用 从 本 书 学 到 的 知识 ， 用 Python 语言 和 一 些 机 器 学 习 算 法 ， 开 发 你 自 
己 的 Web 应 用 。 当 今世 界 有 很 多 数据 相关 的 极 具 挑战 性 的 问题 ， 正 等 待 掌握 了 本 书 所 讲 知 
识 并 能 加 以 运用 的 人 去 解决 。 学 完 本 书 的 你 ， 当 之 无 愧 属于 其 中 的 一 员 。 
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欢迎 来 到 异步 


异步 社区 的 来 历 

异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 
出 版 社 旗下 IT 专业 图 书 旗 舰 社区 ， 于 2015 年 8 
月 上 线 运 营 。 

异步 社区 依托 于 人 民 邮 电 出 版 社 20 余年 的 
IT 专业 优质 出 版 资源 和 编辑 策划 团队 ， 打 造 传统 
出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 








m FET [X 
A BK fh m ou hk o 


B www.epubit.com.cn 




















提供 最 新 技术 资讯 ， 为 作者 和 读者 打造 交流 互动 
的 平台 。 





社区 里 都 有 什么 ? 


购买 图 书 














aj 






新 年 新 气象 


= 


方法 : SERS 。 机 要 学 习 项 目 开发 实战 MHNA see 
与 贝 叶 斯 推断 的 Pyth 


e 
ex * 
o V» 


- 


Python 学 习 法 


"A 


e 


[$ 移动 开发 e 游戏 开发 


更 多 >> 






免费 电子 书 


Free eBook 











我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 编程 语言 、Web 技术 、 数 据 科 学 等 领域 有 众多 经 典 畅 销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 





布 新 书 书 讯 。 











下 载 资源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 











另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 可 以 免费 下 载 。 


与 作 译 者 互动 








很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 
作 译 者 和 编辑 畅 聊 好 书 背后 有 趣 的 故事 ;还 可 以 参与 社区 的 作者 访谈 栏目 ， 向 您 关注 的 作者 提出 采访 题目 。 


灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 电 出 版 社 书 库 发 货 ， 电 子 书 提供 


多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 
用 户 账 户 中 的 积分 可 以 用 于 购书 优惠 。100 积分 =1 元 ， 购 买 图 书 时 ， 在 。 


入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


用 户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 


E ss 


特别 优惠 


购买 本 书 的 读者 专 享 异步 社区 购书 优惠 券 。 


使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 时 输入 57AWG 


用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 〈 本 优惠 券 只 可 使 用 一 次 )。 
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AERE 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 
方式 ， 价 格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 











合 购 洋 








社区 里 还 可 以 做 什么 ? 




















提交 勘误 
您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘 
误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读 
者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 
写作 
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社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 身手 ， 在 社区 里 分 享 您 的 技术 心得 


和 读书 体会 ， 更 可 以 体验 自 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 
如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 特色 服务 。 

















会 议 活动 早 知 道 











您 可 以 掌握 IT 圈 的 技术 会 议 资讯 ， 更 有 机 会 免费 获 赠 





加 入 异步 











异步 社区 WARES 。 
社区 网 址 : www.epubit.com.cn 


官方 微 信 : 异步 社区 
BAe: e 人 邮 异 步 社 区 ， 
投稿 & 咨询 : contact@epubit.com.cn 








扫描 任意 二 维 码 都 能 找到 我 们 : 





fuge 0 








会 门票 。 








官方 微 博 ^? QOBÉ 436746675 





@ 人 民 邮 电 出 版 社 - 信息 技术 分 社 





机 器 学 习 VVeb 应 用 


Python 是 一 门 通用 型 编程 语言 ， 也 是 一 门 相对 容易 学 习 的 语言 。 因 此 ， 数 据 科学 家 在 为 中 小 规模 的 数 
据 集 制 作 原 型 、 实 现 可 视 化 和 分 析 数 据 时 ， 经 常 选 择 使 用 Python 。 

本 书 填补 了 机 器 学 习 和 Web 开发 之 间 的 鸿沟 。 本 书 重 点 讲解 在 Web 应 用 中 实现 预测 分 析 功 能 的 难点 ， 
重点 介绍 Python 语言 及 相关 框架 、 工 具 和 库 ， 展 示 了 如 何 搭建 机 器 学 习 系统 。 你 将 从 本 书 学 到 机 器 学 习 的 
该 心 概念 ， 学 习 如 何 将 数据 部 署 到 用 Django 框架 开发 的 Web WA; 还 将 学 到 如 何 挖 气 Web、 文 档 和 服务 
器 端 数据 以 及 如 何 搭建 推荐 引擎 。 

随后 ， 你 将 进一步 探索 功能 强大 的 Django 框架 ， 学 习 搭 建 一 个 简单 、 具 备 现代 感 的 影评 情感 分 析 应 用 ， 
它 可 是 用 机 器 学 习 算 法 驱动 的 ! 
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本 书 的 目标 读者 
本 书 是 写 给 正 努 力 成 为 数据 科学 家 的 读者 以 及 新 晋 的 数据 科学 家 的 。 读 者 应 该 具备 一 些 机 器 学 习 经 验 。 
如 果 你 对 开发 智能 ( 有 具备 预测 功能 的 ) Web 应 用 感 兴趣 ， 或 正在 从 事 相 关 开发 工作 ， 本 书 非 常 适合 
一 定 的 Django 知识 ， 学 习 本 书 将 会 更 加 轻松 。 我 们 还 希望 读者 具备 一 定 的 Python 编程 背景 和 扎实 的 统计 


学 知识 。 

































































通过 阅读 本 书 ， 你 将 能 够 
熟悉 机 器 学 习 基 本 概念 和 机 器 学 习 社 区 使 用 的 一 些 术语 。 

用 多 种 工具 和 技术 从 网 站 挖掘 数据 。 

掌握 Django 框架 的 核心 概念 。 

了 解 最 常用 的 聚 类 和 分 类 技术 ， 并 用 Python 实现 它们 。 
掌握 用 Django 搭建 Web 应 用 所 需 的 所 有 必 备 知识 。 

FA Python 语言 的 Django 库 成 功 搭建 和 部 署 电影 推荐 系统 。 
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